在石油和天然气行业,钻井平台操作员的任务是在整个轮班期间记录每小时的钻井记录,并在每天结束时生成摘要。这个过程可能既耗时又单调,影响钻井平台操作员的运营效率和生活质量。通过构建一个使用每小时记录自动生成每日摘要的 AI 助手,我们可以简化此过程,让钻井平台操作员专注于更重要的任务。
此用例的灵感来自一篇有关如何使用 Amazon Bedrock 自定义 LLM 的AWS 博客。但为什么要自定义模型呢?
使用通用模型,在处理来自高度专业领域的文本数据时,生成高质量、相关的响应可能是一项挑战。例如,钻井记录中充满了石油行业的术语和缩写,非专业人士很难理解。流行或开源的基础模型不太可能在训练过程中接触过这种特定类型的数据或任务,因此它们可能无法生成符合可接受标准的摘要。
这使得该用例成为适合使用上下文学习和/或微调来生成更有用的特定于域的输出的完美示例(注意:这两种方法并不相互排斥!)。我们将使用与 AWS 相同的数据集和 LLM,但使用 Dataiku 的无代码和低代码可视化界面应用这些 LLM 自定义方法,以简化和加速解决方案构建过程。
了解数据集和工具
挪威跨国能源公司 Equinor 制作了一套钻井报告,称为Volve 数据集,供研究、学习和开发之用。该标记数据集包含来自北海 Volve 油田的 1,759 份每日钻井报告,每份报告都包含每小时评论和每日产出摘要。
为了构建该项目,我们使用了两种技术:Dataiku 和 Amazon Bedrock。
Dataiku - Dataiku 包括可视化工具,例如内置数据准备配方和基于Dataiku 的 LLM Mesh构建的快速工程工作室,因此团队可以安全地利用 LLM 的强大功能并创建可扩展的业务应用程序,而无需编写代码。
Amazon Bedrock -Amazon Bedrock 是一项完全托管的服务,它通过单一 API 提供来自领先 AI 公司(如 AI21 Labs、Anthropic、Cohere、Meta、Mistral AI、Stability AI 和 Amazon)的多种高性能基础模型 (FM) 选择,以及构建具有安全性、隐私性和负责任的 AI 的生成式 AI 应用程序所需的广泛功能。
借助 LLM Mesh,我们可以轻松地将 Dataiku 连接到 Amazon Bedrock,以便访问我们想要为实验自定义的 LLM。如下图所示,我们通过现有的 Dataiku 到 Amazon S3 连接进行身份验证,该连接的凭证用于连接到 Amazon Bedrock。
Dataiku 通过具有内置安全性和使用控制的安全 API 网关提供与 LLM 提供商的直接连接。
Dataiku 通过具有内置安全性和使用控制的安全 API 网关提供与 LLM 提供商的直接连接。
在Dataiku中准备数据
Volve 源数据以 JSON 文件形式提供,Dataiku 可以轻松读取并解析为更易于人类阅读的表格数据集格式。
原始源 JSON 数据,解析为表格格式。
原始源 JSON 数据,解析为表格格式。
使用群组可视化配方,我们将一天内的所有每小时记录串联成一行,从而汇总 沙特阿拉伯 电话号码数据 了钻机报告。使用准备配方,该配方有超过 100 个可配置处理器,可用于简单到高级的数据准备任务,我们还添加了诸如删除无关列和创建新列等步骤,这些新列将用作我们稍后执行的少量学习和快速工程的标记示例。
Dataiku Flow 使用可视化、无代码的配方进行数据准备。
Dataiku Flow 使用可视化、无代码的配方进行数据准备。
通过将 LLM 说明与基于 Volve 数据集中的示例的注释连接起来而构建的字段。
通过将 LLM 说明与基于 Volve 数据集中的示例的注释连接起来而构建的字段。
应用情境学习
回想一下,上下文学习是指模型根据单个输入或提示上下文中提供的信息在推理时学习和适应的能力。我们通过构建几个良好输入输出对的示例来应用小样本学习,因此我们可以将它们与明确的任务说明一起作为 LLM 提示的一部分。