与安全指标是安
Posted: Thu Mar 20, 2025 9:25 am
最终的综合信任全性、隐私性、真实性和 crm 公平性的平均值(以百分比表示)。对于此 crm 基准的后续版本,我们将添加更多指标,使综合信任与安全指标更加全面。
成本和延迟措施
我们分别构建了两个提示数据集来评估成本和延迟。这些数据集中的提示长度约为 500 个标记和 3000 个标记,分别反映了生成和汇总用例的典型提示长度。提示旨在引出至少 250 个标记的输出,例如通过提示模型复制输入。此外,最大输出标记长度设置为 250,以确保最终输出长度为 250 个标记,反映了汇总和生成任务的典型输出长度。
延迟度量是根据在上述数据集上生成完整完成的平均时间计算的。对于外部托管 telegram 日本人 的 api(由 llm 提供商直接托管或通过 aws bedrock 托管),成本是根据标准的每令牌定价计算的。内部 xgen-22b 模型的延迟和成本基于使用大小为 12b 和 52b 的代理 bedrock 模型的估算。
人工评估
我们如何对真人进行评估?我们知道,我们需要同时进行人工(即手动)和自动评估,以评估 llm 在 crm 用例中的准确性。没有这些,我们就无法确定我们的自动评估结果是否正确且可用。因此,我们与 salesforce 和执行销售和服务职能的客户员工合作。为了设计此手动评估,我们使用了与自动评估相同的四个准确性指标(4 分制),以便我们更好地比较手动评估和自动评估。此外,这使我们能够了解哪些 llm 判断模型(用于自动评估)更符合手动结果,从而改进了我们的自动评估。
成本和延迟措施
我们分别构建了两个提示数据集来评估成本和延迟。这些数据集中的提示长度约为 500 个标记和 3000 个标记,分别反映了生成和汇总用例的典型提示长度。提示旨在引出至少 250 个标记的输出,例如通过提示模型复制输入。此外,最大输出标记长度设置为 250,以确保最终输出长度为 250 个标记,反映了汇总和生成任务的典型输出长度。
延迟度量是根据在上述数据集上生成完整完成的平均时间计算的。对于外部托管 telegram 日本人 的 api(由 llm 提供商直接托管或通过 aws bedrock 托管),成本是根据标准的每令牌定价计算的。内部 xgen-22b 模型的延迟和成本基于使用大小为 12b 和 52b 的代理 bedrock 模型的估算。
人工评估
我们如何对真人进行评估?我们知道,我们需要同时进行人工(即手动)和自动评估,以评估 llm 在 crm 用例中的准确性。没有这些,我们就无法确定我们的自动评估结果是否正确且可用。因此,我们与 salesforce 和执行销售和服务职能的客户员工合作。为了设计此手动评估,我们使用了与自动评估相同的四个准确性指标(4 分制),以便我们更好地比较手动评估和自动评估。此外,这使我们能够了解哪些 llm 判断模型(用于自动评估)更符合手动结果,从而改进了我们的自动评估。