Page 1 of 1

实际用例使用自由文本标签对 LLM 进行微调

Posted: Sun Feb 16, 2025 4:35 am
by pappu6327
让我们探索一个更具体的例子,以了解自由文本标签如何增强医疗环境中的模型性能,特别是主观、客观、评估、计划 (SOAP) 注释,这是医疗保健提供者用来记录患者互动的常用格式。

假设一家医院使用大型语言模型 (LLM) 从医生和患者之间的对话中自动生成 SOAP 注释。虽然 LLM 能够提取关键信息,但有时可能会误解医学术语、错过重要的细微差别或无法正确分类主观或客观数据点。通过在 Dataiku 中使用自由文本标签,人工注释者(例如医疗专业人员)可以浏览生成的 SOAP 注释并添加自定义注释,纠正任何误解或添加模型遗漏的上下文。

Dataiku 中的标记任务可以在几种不同的数据类型上完成。

Dataiku 中的标记任务可以在几种不同的数据类型上完成。

在这种情况下,医疗保健从业者使用自由文本标签来注释来自 LLM 的 SOAP 注释。

在标注界面右侧可以添加自由文本注释,用户可以跳过并保存注释以备复习。

在标注界面右侧可以添加自由文本注释,用户可以跳过并保存注释以备复习。

例如,在本例中,审阅者添加了带有潜在二次诊断的评估说明,以确保模型能够捕捉关键的医疗细节。这使得数据集能够更好地符合临床预期,从而提高模型在未来迭代中的准确性。

在工作流程的下一阶段,我们将看到审阅者在验证注释方面发挥的关键作用。这种简化的审阅流程可确保整个项目的数据质量得到维护。注释一旦通过验证,便会成为最终数据集的一部分,有助于完善模型的输出。

审阅者可以在同一个新位置验证所有注释。实例管理员可以从管理面板为用户分配审阅控制权。

审阅者可以在同一个新位置验证所有注释。实例管理员可以从管理面板为用户分配审阅控制权。

例如,此处的审阅者可以选择验证与次要诊断相关的自由文本注释,确保 SOAP 注释符合临床期望。

审查并验证所有注释后,将生成包含注释和标签的最终数据集,可用于模型微调或进一步分析。每个注释都包含详细信息,例如审阅者、标记任务 ID 和应用的特定标签。这确保了可追溯性并提供丰富的上下文数据,可以显著改善模型输出。

验证注释后,将创建一个带有标签的数据集,用于为模型/输出提供更多上下文。

验证注释后,将创建一个带有标签的数据集,用于为模型/输出提供更多上下文。

例如,数据集包括修正和附加诊断。这个最终数据集提供了更全面、更具有情境感知能力的数据,增强了模型在未来迭代中生成准确可靠输出的能力。

让人类参与生成式人工智能
那么,为什么这对生成式人工智能 (GenAI) 的世界如此重要?GenAI 非常强大,但与任何模型一样,它也容易出错,例如产生幻觉。通过让人类参与其中,团队可以降低模型出错的风险,并确保人工智能生成的输出满足他们的特定需求。

例如,在使用 LLM 生成内容时,人工审阅者可以使用自由文本标签来注释模型输出错误的位 罗马尼亚电话号码数据 置或提出更正建议。然后可以使用这些带标签的数据集为模型提供更多背景信息,确保模型生成更准确、更相关的输出。

这对于医疗或金融等行业尤其重要,因为这些行业的人工智能系统需要满足高标准的准确性和可靠性。在医疗等环境中,法学硕士可能会根据历史数据提出治疗方案,但自由文本标签允许医生审查和微调这些建议,确保人工智能的输出符合当前的临床实践。

灵活性与精确性和治理性相结合
自由文本标记提供了自由和灵活性,可以根据您的独特需求以各种方式标记数据 - 无论您是在微调 LLM、构建 GenAI 工作流程还是处理复杂的分类任务。除了灵活性之外,让人类参与其中也是确保高质量 AI 输出的关键。

因此,下次您考虑数据管道时,请记住:输入的是垃圾,输出的也是垃圾。借助自由文本注释和托管标签,Dataiku 可确保您输入正确的数据,从而获得正确的结果。