Skip to content
On this page

📐 系统地测试变更

有时候很难判断一个变化(比如新的指令或设计)是让你的系统变得更好还是更糟。一些例子可能会暗示哪个变化更好,但在样本数量较小的情况下,很难区分这种变化是真正的改进还是偶然运气。或许这种变化可以提高某些输入的性能,但对其他输入却有害无益。

评估程序对于优化系统设计非常有用。好的评估应该具备以下特点:

  1. 代表真实世界的使用情况(或至少多样化)
  2. 包含许多测试用例以获得更全面的统计能力(请参见下表中的指南)
  3. 易于自动化或重复
需要检测的差异95%置信度所需样本量
30%~10
10%~100
3%~1,000
1%~10,000

对输出的评估可以由计算机、人类或二者混合完成。计算机可以使用客观标准(例如,具有单个正确答案的问题)以及一些主观或模糊标准自动化评估,在这种情况下,模型输出将由其他模型进行评估。(OpenAI Evals)[https://github.com/openai/evals]是一个开源软件框架,提供创建自动化评估的工具。

当存在一系列质量同样高的可能输出时,基于模型的评估是很有用的(例如,对于答案较长的问题)。使用模型评估和需要人工评估之间的边界是模糊不清的,随着模型变得更加强大这个边界也在不断变化,我们鼓励通过实验来确定基于模型的评估在你的项目中能够发挥多大的作用。

技巧:参考黄金标准(gold-standard)答案评估模型输出

假设已知一个问题的正确答案应该涉及到一组特定的已知事实。那么我们可以使用模型来计算答案中包含了多少个必需的事实。

例如,使用以下系统提示:

⚙️ 系统:
您将获得由三重引号分隔的文本,该文本应该是问题的答案。检查以下信息是否直接包含在答案中:

- 尼尔·阿姆斯特朗是第一个走上月球的人。
- 尼尔·阿姆斯特朗首次登上月球的日期是1969年7月21日。

对于这些要点,请执行以下步骤:

1 - 重新表述要点。
2 - 提供最接近此要点的答案引用。
3 - 考虑一下不了解这个话题的人是否可以通过阅读引用直接推断出该要点。在做出决定之前请解释原因。
4 - 如果问题3的答案为“是”,则写“yes”,否则写“no”。

最后,提供有多少个“yes”回答计数。将其作为 {"count": <插入计数>}。

这是一个满足两个点的示例输入:

⚙️ 系统:
<输入上述的系统提示>

👤 用户:
"""尼尔·阿姆斯特朗因成为第一个登上月球的人而闻名。这一历史性事件发生在1969年7月21日,当时他参加了阿波罗11号任务。"""

以下是一个仅满足一个点的示例输入:

⚙️ 系统:
<输入上述的系统提示>

👤 用户:
"""尼尔·阿姆斯特朗走出登月舱,成为第一个在月球上行走的人,创造了历史"""

以下是一个点都不满足的输入:

⚙️ 系统:
<输入上述的系统提示>

👤 用户:
"""在69年的夏天,一次宏伟的航行,

阿波罗11号,像传说中那样勇敢。

阿姆斯特朗迈出了一步,历史展开了,

“一个小步骤”,他为新世界说道。"""

这种基于模型的评估方法有许多可能的变体。考虑以下变化,它跟踪候选答案和标准答案之间的重叠类型,并跟踪候选答案是否与标准答案中的任何部分相矛盾。

⚙️ 系统:
请按照以下步骤操作:

第一步:逐步推理提交的答案与专家答案相比是不是:不相交、子集、超集或具有相等的信息集。

第二步:逐步推理提交的答案是否与专家答案的任何方面存在矛盾。

第三步:输出一个结构化为JSON对象的结果,格式如下: {"containment": "不想交" 或者 "子集" 或者 "超集" 或者 "相等", "contradiction": True 或 False}

这是一个低质量答案的示例输入:

⚙️ 系统:
<输入上述的系统提示>

👤 用户:
问题:“尼尔·阿姆斯特朗最著名的事件是什么,它发生在什么时候?假设使用世界标准时间。”

提交的答案:“他不是走上月球了吗?”

专家的答案:“尼尔·阿姆斯特朗最著名的事件是成为第一个走上月球的人。这一历史性事件发生于1969年7月21日,作为NASA阿波罗11号任务的一部分。当他踏上月球表面时说出了那句著名的话,“这是个人迈出的一小步,却是人类的一大步。” 至今仍被广泛引用。

这是一个高质量答案的示例输入:

⚙️ 系统:
<输入上述的系统提示>

👤 用户:
问题:“尼尔·阿姆斯特朗最著名的事件是什么,它发生在什么时候?假设使用世界标准时间。”

提交的答案:"""1969年7月21日UTC时间02:56左右,尼尔·阿姆斯特朗成为第一个踏上月球表面的人类,标志着人类历史上的一项重大成就。20分钟后,奥尔德林也加入了他。"""

专家的答案:"""尼尔·阿姆斯特朗最著名的是成为第一个登上月球的人类。这一历史性事件发生在1969年7月21日,当时进行了阿波罗11号任务。"""