提高可靠性
本文介绍了当GPT-3在任务上失败时,如何提高它的可靠性。通过分解任务,给出更好的提示,构建指令以保持模型在任务上,微调自定义模型等技巧,优化自定义模型的性能。
关于
当 GPT-3 在任务上失败时,您应该怎么做?
- 寻找更好的提示来引出更可靠的答案?
- 投资数千个示例来微调自定义模型?
- 假设模型无法完成任务,然后继续前进?
没有简单的答案 – 这取决于。但是,如果您的任务涉及逻辑推理或复杂性,请考虑尝试本文中的技术来构建更可靠、高性能的提示。
为什么 GPT-3 在复杂任务上失败
如果让你把13乘以17,答案会立即出现在你的脑海中吗?对于我们大多数人来说,可能不是。然而,这并不意味着人类没有两位数的乘法能力。只需几秒钟,加上一些笔和纸,就可以计算出 13 x 17 = 130 + 70 + 21 = 221 并不太费力。
同样,如果您给 GPT-3 的任务太复杂,无法在计算其下一个令牌所需的时间内完成,则可能会虚构错误的猜测。然而,类似于人类,这并不一定意味着模型无法完成任务。通过一些时间和空间来推理事情,模型仍然能够可靠地回答。
例如,如果你问以下关于杂耍球的数学问题,它回答错误:text-davinci-002
问:杂耍演员有 16 个球。 一半的球是高尔夫球,一半的高尔夫球是蓝色的。 有多少个蓝色高尔夫球? A:
有 8 个蓝色高尔夫球。
这是否意味着 GPT-3 不能做简单的数学题?洛伊事实上,事实证明,通过提示模型,模型可靠地解决了问题:Let's think step by step
问:杂耍演员有 16 个球。 一半的球是高尔夫球,一半的高尔夫球是蓝色的。 有多少个蓝色高尔夫球? A:让我们逐步考虑。
一共有16个球。 一半的球是高尔夫球。 这意味着有 8 个高尔夫球。 一半的高尔夫球是蓝色的。 这意味着有 4 个蓝色高尔夫球。
当然,很难仅从一个例子中判断这个技巧是否真的有效,或者只是在这个特定问题上很幸运。但它确实有效。在单词数学问题的基准测试中,该技巧大大提高了 GPT-3 的解决率,从毫无价值的 18% 提高到体面的 79%!Let's think step by stepLet's think step by step
模型功能取决于上下文
在学习使用 GPT-3 时,一个常见的概念错误是认为它的功能在所有上下文中都是固定的。例如,如果 GPT-3 答错了一个简单的逻辑问题,那么它一定不能进行简单的逻辑。
但正如示例所示,GPT-3 的明显故障有时可以通过更好的提示来补救,以帮助模型将自身引导到正确的输出。Let's think step by step
如何提高复杂任务的可靠性
本文的其余部分分享了提高大型语言模型在复杂任务上的可靠性的技术。尽管某些技术特定于某些类型的问题,但其中许多技术都建立在可应用于各种任务的一般原则之上,例如:
- 给出更清晰的指示
- 将复杂任务拆分为更简单的子任务
- 构建指令以保持模型在任务上
- 在回答之前提示模型进行解释
- 询问许多可能答案的理由,然后综合
- 生成许多输出,然后使用模型选择最佳输出
- 微调自定义模型以最大限度地提高性能
将复杂任务拆分为更简单的任务
给模型更多时间和空间思考的一种方法是将任务分解为更简单的部分。
举个例子,考虑一个任务,我们向模型询问一个关于某些文本的多项选择题 – 在本例中,是一个线索游戏。当直接询问时,无法将线索3和5放在一起,并且回答错误:text-davinci-002
根据以下线索回答下列多项选择题。 线索: 1. 斯嘉丽小姐是休息室里唯一的人。 2.拿烟斗的人在厨房里。 3. 穆斯塔德上校是天文台里唯一的人。 4. Plum 教授既不在图书馆也不在台球室。 5.拿着烛台的人在天文台。 问题:芥末上校拿着烛台在天文台吗? (a) 是; 芥末上校拿着烛台在天文台 (b) 否; 芥末上校不在天文台拿着烛台 (c) 未知; 没有足够的信息来确定穆斯塔德上校是否带着烛台在天文台 解决方案:
(c) 未知; 没有足够的信息来确定穆斯塔德上校是否带着烛台在天文台
虽然线索3和5确定Mustard上校是天文台中唯一的人,并且天文台里的人有烛台,但模型未能将它们组合成(a)是的正确答案。
但是,我们可以将任务分为三部分,而不是直接询问答案:
- 首先,逐一浏览线索,并考虑线索是否具有潜在相关性
- 二、结合相关线索推理出问题的答案
- 第三,写下最终答案:(a)、(b)或(c)
使用以下线索,按照以下步骤回答以下多项选择题: (1) 首先,一条一条地梳理线索,考虑线索是否具有潜在相关性 (2)其次,结合相关线索推理出问题的答案 (3) 第三,将答案映射到多项选择答案之一:(a)、(b) 或 (c) 线索: 1. 斯嘉丽小姐是休息室里唯一的人。 2.拿烟斗的人在厨房里。 3. 穆斯塔德上校是天文台里唯一的人。 4. Plum 教授既不在图书馆也不在台球室。 5.拿着烛台的人在天文台。 问题:芥末上校拿着烛台在天文台吗? (a) 是; 芥末上校拿着烛台在天文台 (b) 否; 芥末上校不在天文台拿着烛台 (c) 未知; 没有足够的信息来确定穆斯塔德上校是否带着烛台在天文台 解决方案: (1) 首先,一条一条地梳理线索,考虑线索是否具有潜在相关性:
线索 1:斯嘉丽小姐是休息室里唯一的人。 这条线索无关紧要。 线索 2:拿着烟斗的人在厨房里。 这条线索无关紧要。 线索3:穆斯塔德上校是天文台里唯一的人。 这个线索是相关的。 线索4:普拉姆教授既不在图书馆也不在台球室。 这条线索无关紧要。 线索 5:拿着烛台的人在天文台。 这个线索是相关的。 (2)其次,结合相关线索推理出问题的答案: 线索3和线索5都说拿烛台的人在天文台。 天文台里只有穆斯塔德上校一个人,所以拿烛台的人就是穆斯塔德上校。 (3) 三、写出最终答案: (a) 是; 芥末上校拿着烛台在天文台
通过给模型更多的时间和空间来思考,并引导它沿着推理计划,它能够找出(a)是的正确答案。
将复杂指令拆分为较小的子任务的另一个好处是,它可以帮助使模型专注于每个子任务。
例如,如果我们要求用原始语言总结文本,则模型可以返回英语:text-davinci-002
使用文本的原始语言总结文本。 摘要应该是一句话长。 文本: """ 统计学(德语 Statistik 的阴性形式,源自意大利语 statista,"政治家")是一门研究数据的可变性、收集、组织、分析、解释和呈现以及随机过程的科学统计是一门形式化的演绎科学,通过形式化的科学方法获得了自己的知识,动态且不断发展。 事实科学有时需要在事实调查过程中使用统计技术,以便在实验和观察的基础上获得新知识。 在这些情况下,统计学的应用允许分析来自代表性样本的数据,试图解释随机或条件发生的物理或自然现象的相关性和依赖性。 """ 概括:
文本解释说,统计学是一门研究数据的可变性、收集、组织、分析、解释和呈现,以及按照概率法则生成数据的随机过程的科学。
但是,如果我们先让模型识别文本的语言,然后总结文本,它会变得更加可靠:
首先,确定文本的语言。 其次,用课文原文概括课文。 摘要应该是一句话长。 文本: """ 统计学(德语 Statistik 的阴性形式,源自意大利语 statista,"政治家")是一门研究数据的可变性、收集、组织、分析、解释和呈现以及随机过程的科学统计是一门形式化的演绎科学,通过形式化的科学方法获得了自己的知识,动态且不断发展。 事实科学有时需要在事实调查过程中使用统计技术,以便在实验和观察的基础上获得新知识。 在这些情况下,统计学的应用允许分析来自代表性样本的数据,试图解释随机或条件发生的物理或自然现象的相关性和依赖性。 """ 语言:
中文 统计学是一门研究数据的可变性、收集、组织、分析、解释和呈现,以及按照概率法则生成数据的随机过程的科学。
在回答之前提示模型进行解释
提高答案可靠性的另一种强大技术是提示模型逐渐推理出答案,而不是立即跳到最终答案。通过“大声思考”,模型更有可能得出正确答案。
Zero-shot
方法
由 Takeshi Kojima 等人于 2022 年发表,提示模型推理出答案的最简单方法是简单地在答案前面加上图 2 所示的示例:Let's think step by step.
资料来源:大型语言模型是零镜头推理者,作者:小岛武等人(2022 年)。
结果
将这个简单的技巧应用于MultiArith数学数据集,作者发现准确率翻了两番,从18%增加到79%!Let's think step by step
资料来源:大型语言模型是零镜头推理者,作者:小岛武等人(2022 年)。
影响
虽然这个技巧在数学问题上效果很好,但它并不是对所有任务都有效。作者发现,它对多步算术问题、符号推理问题、策略问题和其他推理问题最有帮助。它对简单的数学问题或常识问题没有帮助,而且可能也对许多其他非推理任务没有帮助。Let's think step by step
资料来源:大型语言模型是零镜头推理者,作者:小岛武等人(2022 年)。
要了解更多信息,请阅读全文。
如果您将此技术应用于自己的任务,请不要害怕尝试自定义指令。 是相当通用的,因此您可能会发现更好的性能,这些指令遵循根据您的用例自定义的更严格的格式。例如,如果你是,你可以尝试更结构化的变体,如.您甚至可以为模型提供一个示例格式,以帮助使其保持在正轨上,例如:让我们一步步思考 首先,一步步思考为什么 X 可能为真。 其次,逐步思考为什么 Y 可能为真。 第三,逐步思考 X 或 Y 哪个更有意义。
使用下面的 IRS 指南,使用此格式回答以下问题: (1) 对每个标准,判断车辆购买是否满足 - {标准} 让我们一步步来思考。 {解释} {是或否,或者如果问题不适用则 N/A}。 (2) 依次考虑每个标准后,将最终答案表述为"因为{原因},答案很可能是{是或否}。" 国税局指导: """ 如果您购买的汽车或卡车符合以下条件,您可能有资格根据第 30D 条获得联邦税收抵免: - 车辆是否至少有四个轮子? - 车辆重量是否小于 14,000 磅? - 车辆是否从可从外部电源充电的至少 4 千瓦时的电池中获取能量? - 车辆是在 2022 年之前的一年购买的吗? - 如果是,制造商销售的合格车辆是否少于 200,000 辆? (特斯拉和通用汽车已售出超过 200,000 辆符合条件的车辆。) - 车辆是在 2022 年之后的一年购买的吗? - 如果是,该车辆是否出现在以下北美组装车辆列表中? (唯一在北美组装的电动汽车是奥迪 Q5、宝马 330e、宝马 X5、雪佛兰 Bolt EUV、雪佛兰 Bolt EV、克莱斯勒 Pacifica PHEV、福特翼虎 PHEV、福特 F 系列、福特野马 MACH E、福特全顺 Van、GMC 悍马皮卡、GMC 悍马 SUV、吉普大切诺基 PHEV、吉普牧马人 PHEV、林肯飞行员 PHEV、林肯海盗船插件、Lucid Air、日产聆风、Rivian EDV、Rivian R1S、Rivian R1T、Tesla Model 3、Tesla Model S、Tesla Model X、Tesla Model Y、沃尔沃 S60、BMW 330e、Bolt EV、凯迪拉克 Lyriq、梅赛德斯 EQS SUV 和日产聆风。) """ 问题:我可以为 2021 年购买的丰田普锐斯 Prime 申请联邦税收抵免吗? 解决方案: (1) 对每个标准,判断车辆购买是否满足 - 车辆是否至少有四个轮子? 让我们一步一步地思考。
Toyota Prius Prime 有四个轮子,所以答案是肯定的。 - 车辆重量是否小于 14,000 磅? 让我们一步一步地思考。 丰田普锐斯 Prime 的重量不到 14,000 磅,所以答案是肯定的。 - 车辆是否从可从外部电源充电的至少 4 千瓦时的电池中获取能量? 让我们一步一步地思考。 Toyota Prius Prime 拥有至少 4 千瓦时的电池,可以通过外部电源充电,所以答案是肯定的。 - 车辆是在 2022 年之前的一年购买的吗? 让我们一步一步地思考。 丰田普锐斯 Prime 是 2021 年购买的,也就是 2022 年之前,所以答案是肯定的。 - 车辆是在 2022 年之后的一年购买的吗? 不适用 - 如果是,该车辆是否出现在以下北美组装车辆列表中? 不适用 (2) 依次考虑每个标准后,将最终答案表述为"因为{原因},答案很可能是{是或否}。" 因为丰田普锐斯 Prime 符合联邦税收抵免的所有标准,所以答案很可能是肯定的。
少数镜头示例
方法
提示模型推理出其答案可以通过多种方式完成。一种方法是用几个例子(“少数镜头”)来演示,正如谷歌的Jason Wei和Denny Zhou等人所研究的那样。下面是一个示例几个镜头的思维链提示:
来源:在大型语言模型中提示引出推理的思维链 杰森·韦和丹尼·周等人 (2022)
更多由人类标记人员编写的推理链演示:
来源:在大型语言模型中提示引出推理的思维链 杰森·韦和丹尼·周等人 (2022)
结果
在对小学数学问题的测试中,作者发现,思维链促使解决率增加了两倍,从18%增加到57%。
来源:在大型语言模型中提示引出推理的思维链 杰森·韦和丹尼·周等人 (2022)
除了数学问题,思维链提示也提高了与运动理解、抛硬币跟踪和最后一个字母串联相关的问题的表现。在大多数情况下,不需要很多示例来饱和性能增益(少于 8 个左右)。
来源:在大型语言模型中提示引出推理的思维链 杰森·韦和丹尼·周等人 (2022)
要了解更多信息,请阅读全文。
影响
相对于该技术,基于示例的少数镜头方法的一个优点是,您可以更轻松地指定希望模型在最终答案之前执行的推理格式、长度和风格。这在模型最初没有以正确的方式或深度推理的情况下特别有用。Let's think step by step
微调
方法
通常,要在任务上实现最大性能,您需要微调自定义模型。但是,使用解释微调模型可能需要数千个示例解释,编写这些解释的成本很高。
2022 年,Eric Zelikman 和 Yuhuai Wu 等人发布了一个巧妙的程序,该程序使用几个镜头提示来生成可用于微调模型的解释数据集。这个想法是使用几个镜头提示来生成候选解释,并且只保留产生正确答案的解释。然后,要获得某些错误答案的其他解释,请重试少数镜头提示,但将正确答案作为问题的一部分给出。作者称他们的程序为STaR(自学推理者):
来源:STaR:埃里克·泽利克曼和吴宇菊等人的推理引导推理(2022 年)
使用此技术,您可以将微调的好处与思维链提示的好处结合起来,而无需编写数千个示例解释。
结果
当作者将这种技术应用于常识问答数据集时,他们发现STaR的性能优于单独的思维链提示(73%>37%)和单独的微调(73%>60%):
来源:STaR:埃里克·泽利克曼和吴宇菊等人的推理引导推理(2022 年)
要了解更多信息,请阅读全文。
影响
使用几个镜头提示来扩展或修改微调数据集是一个可以推广到解释写作之外的想法。例如,如果要训练大量非结构化文本,则可以找到机会使用提示从非结构化文本中提取结构化数据集,然后对该结构化数据集进行微调自定义模型。
思维链提示的扩展
一些思维链提示的扩展也已经发布。
选择推理提示
方法
由Antonia Creswell等人出版,思维链技术的一个扩展是将生成解释和答案的单个提示拆分为更小的部分。首先,提示从文本中选择事实的相关子集(“选择提示”)。然后,第二个提示从选定的事实推断出结论(“推理提示”)。然后,这些提示在循环中交替出现,以生成多个推理步骤,并最终得出最终答案。作者在下图中说明了这个想法:
来源:选择推理:利用大型语言模型进行可解释的逻辑推理,作者:Antonia Creswell 等人 (2022)
结果
当应用于7B参数模型时,作者发现,相对于bAbi和证明编写器基准任务的思维链提示(两者都需要更长的推理步骤序列),选择推理提示显着提高了性能。他们实现的最佳性能结合了选择推理提示和微调。
来源:选择推理:利用大型语言模型进行可解释的逻辑推理,作者:Antonia Creswell 等人 (2022)
影响
尽管这些基准的收益很大,但这些基准是专门选择的,因为它们需要更长的推理序列。在不需要通过许多步骤进行推理的问题上,收益可能较小。
结果突出显示了使用大型语言模型的几个一般经验教训。第一,将复杂任务拆分为较小的任务是提高可靠性和性能的好方法;任务越原子,模型出错的空间就越小。第二,获得最大性能通常意味着将微调与您选择的任何方法相结合。
要了解更多信息,请阅读全文。
忠实的推理架构
在发表选择推断提示技术几个月后,作者在后续论文中扩展了该技术,并提出了以下想法:
- 确定选择推理周期何时应停止或继续
- 添加值函数以帮助搜索多个推理路径
- 通过微调模型来推理句子标签(例如,sen1),而不是写出句子本身,从而减少对虚假事实的幻觉
方法
在最初的选择推理技术中,专门的“选择”和“推理”提示交替选择事实并从这些事实进行推理,组合以生成一系列推理步骤。
作者用两个额外的组件扩展了这种技术。
首先,作者添加了一个“halter”模型,在每个推理步骤之后,询问到目前为止的推理是否足以回答这个问题。如果是,则模型生成最终答案。
挂脖型号带来了几个优点:
- 它可以根据需要告诉选择推理过程停止或继续。
- 如果这个过程永远不会停止,你将得不到答案,这通常比幻觉的猜测更可取。
来源:安东尼娅·克雷斯韦尔等人使用大型语言模型的忠实推理(2022 年)
来源:安东尼娅·克雷斯韦尔等人使用大型语言模型的忠实推理(2022 年)
其次,作者增加了一个价值函数,用于评估推理步骤的质量并搜索多个推理轨迹。这与提高可靠性的共同主题相呼应;与其从模型中生成单个答案,不如生成一组答案,然后使用某种类型的值函数/鉴别器/验证器模型来选择最佳答案。
来源:安东尼娅·克雷斯韦尔等人使用大型语言模型的忠实推理(2022 年)
除了这两个扩展之外,作者还使用了一个技巧来减少对虚假事实的幻觉。他们不是要求模型写出事实句子,而是微调模型以使用句子标签(例如,sen1)。这有助于防止模型产生提示上下文中未提及的虚假事实的幻觉。
来源:安东尼娅·克雷斯韦尔等人使用大型语言模型的忠实推理(2022 年)
结果
作者在两个基准上评估了他们的技术:ProofWriter任务(未显示)和EntailmentBankQA(显示)。该技术大大提高了准确性,特别是在更难的推理问题上。
来源:安东尼娅·克雷斯韦尔等人使用大型语言模型的忠实推理(2022)
此外,他们的句子标签操纵技巧基本上消除了幻觉!
来源:安东尼娅·克雷斯韦尔等人使用大型语言模型的忠实推理(2022)](https://arxiv.org/abs/2208.14271)
影响
本文说明了许多有助于提高大型语言模型可靠性的经验教训:
- 将复杂任务拆分为更小、更可靠的子任务
- 逐步生成答案,并在此过程中进行评估
- 生成许多可能的答案,并使用另一个模型或函数来选择看起来最好的答案
- 通过限制模型可以说的内容来减少幻觉(例如,通过使用句子标签而不是句子)
- 通过根据专用任务微调模型来最大限度地提高模型的性能
要了解更多信息,请阅读全文。
从最少到最多的提示
除了在长推理链(选择推理大放异彩的地方)上表现不佳之外,当示例很短但任务很长时,思维链提示尤其困难。
方法
最小到最多提示是另一种将推理任务拆分为更小、更可靠的子任务的技术。这个想法是通过提示模型来从模型中引出一个子任务。然后,有了该子任务,模型就可以生成解决方案。解决方案将附加到原始问题中,并重复该过程,直到产生最终答案。To solve {question}, we need to first solve: "
来源:最小到最多的提示使大型语言模型中的复杂推理成为可能,作者:Denny Zhou 等人 (2022)
结果
当应用于涉及长推理链的基准时(针对代码进行了优化,但仍然可以理解文本),作者测量的收益高达16%->99.7%!code-davinci-002
来源:最小到最多的提示使大型语言模型中的复杂推理成为可能,作者:Denny Zhou 等人 (2022)
影响
尽管上述从最少到最紧密的提示的收益令人印象深刻,但它们是在一组非常狭窄的任务上衡量的,这些任务需要很长的推理链。
尽管如此,它们还是说明了一个共同的主题:通过(a)将复杂的任务分解成更小的子任务和(b)给模型更多的时间和空间来计算答案来提高可靠性。
要了解更多信息,请阅读全文。
相关想法
Maieutic prompting
方法
与以前试图最大化正确答案可能性的技术相比,另一种方法是使用 GPT-3 生成可能解释(正确和不正确)的树,然后分析它们的关系以猜测哪个集合是正确的。这种技术是由Jaehun Jung等人于2022年月创造的maieutic提示(maieutic意味着与苏格拉底提出问题以引发想法的方法有关)。
该方法很复杂,工作原理如下:
- 首先,构建一个 maieutic 树,其中每个节点都是一个语句,可以是真也可以是假:
- 从多项选择题或真/假陈述开始(例如
War cannot have a tie
) - 对于问题的每个可能答案,使用模型生成相应的解释(提示如下
War cannot have a tie? True, because
) - 然后,用问题和生成的解释提示模型,并要求它产生答案。如果颠倒解释(带有类似前缀)反转答案,那么解释被认为是“逻辑上完整的”。
It is wrong to say that {explanation}
- 如果一个解释在逻辑上不是完整的,那么递归地重复上述过程,每个解释变成一个真或假问题,并为每个新问题生成更多的解释。
- 完成所有递归解释后,您最终会得到一个解释树,其中树上的每个叶子都具有反转解释会反转模型答案的属性。
- 从多项选择题或真/假陈述开始(例如
- 其次,将树转换为关系图:
- 对于树中的每个节点,计算模型在每个节点中的相对置信度(从给定解释的答案的概率推断)
True
- 对于树中的每对节点,使用模型来确定它们是包含(隐含)还是矛盾的
- 对于树中的每个节点,计算模型在每个节点中的相对置信度(从给定解释的答案的概率推断)
- 第三,找到最一致的信念,并认为这些信念是正确的:
- 具体来说,利用每个节点的信念强度和它们之间的逻辑关系,将问题表述为加权最大满足性问题(MAX-SAT)
- 使用求解器找到最自洽的信念集,并将它们视为真实
来源:Maieutic 提示:逻辑一致的推理与递归解释,作者:Jaehun Jung等人(2022)
结果
来源:Maieutic 提示:逻辑一致的推理与递归解释,作者:Jaehun Jung等人(2022)
影响
除了复杂性之外,这种方法的一个限制是它似乎仅适用于可以作为多项选择提出的问题。
要了解更多信息,请阅读全文。
扩展
自洽性
方法
对于具有一组离散答案的任务,提高可靠性的一种简单方法是从模型中抽取多个解释和答案(使用正温度),然后选择最常出现的最终答案。
来源:自我一致性改善语言模型中的思维推理链,王学志等人(2022)
结果
这种技术将一套数学和推理基准的准确性提高了 1 到 24 个百分点。(下图是谷歌LaMDA模型的结果;使用谷歌更大的PaLM模型,基线更高,但收益有点小。
来源:自我一致性改善语言模型中的思维推理链,王学志等人(2022)
影响
虽然这种技术很容易实现,但它的成本可能很高。生成一组 10 个答案将使成本增加 10 倍。
此外,与许多这些技术一样,它仅适用于具有有限一组答案的任务。对于每个答案都是唯一的开放式任务(例如写一首诗),选择最常见的答案意味着什么并不明显。
最后,当有多个路径或措辞来获得答案时,这种技术应该是最有益的;如果只有一条路径,那么该技术可能根本无济于事。一个极端的例子:如果任务是生成单个令牌答案,那么从 100 代中获取最常见的令牌与获取具有最高对数的令牌没有什么不同(您可以在 temperature=0 时通过单代获得)。
验证程序
提高任务性能的另一个关键技术是训练验证器或鉴别器模型来评估主生成模型的输出。如果鉴别器拒绝输出,则可以对生成模型进行重新采样,直到获得可接受的输出。在许多情况下,判断答案比创建答案更容易,这有助于解释这种方法的力量。
方法
2021 年,OpenAI 研究人员使用以下程序将这项技术应用于小学数学问题:
- 首先,他们微调了问题和解决方案的模型
- 对于训练集中的每个问题,他们生成了100个解决方案
- 这 100 个解决方案中的每一个都会根据最终答案是否正确自动标记为正确或不正确。
- 使用这些解决方案,其中一些标记为正确,一些标记为不正确,他们微调了一个验证器模型,以对问题和候选解决方案是否正确进行分类。
- 最后,在测试时,生成模型为每个问题创建 100 个解决方案,并根据验证器模型选择得分最高的一个作为最终答案
来源:训练验证者解决数学单词问题,卡尔·科布等人(2021 年)
结果
通过 175B GPT-3 模型和 8,000 个训练示例,这种技术将小学数学准确率从 ~33% 大幅提高到 ~55%。
来源:训练验证者解决数学单词问题,卡尔·科布等人(2021 年)
影响
与自洽技术类似,这种方法可能会变得昂贵,因为每个任务生成 100 个解决方案会使您的成本增加大约 ~100 倍。
可靠性理论
尽管上述技术的方法各不相同,但它们的共同目标是提高复杂任务的可靠性。他们主要通过以下方式做到这一点:
- 将不可靠的操作分解为更小、更可靠的操作(例如,选择推理提示)
- 使用多个步骤或多个关系使系统的可靠性高于任何单个组件(例如,Maieutic 提示)
概率图模型
这种试图用不太可靠的组件构建可靠系统的范式让人想起概率编程,该领域的许多分析技术都可以应用于这个。
在语言模型级联(Language Model Cascades)一文中,David Dohan等人在概率图模型范式中解释了上述技术:
思维链提示
微调的思维链提示/自学成才的推理者
选择推理提示
验证程序
影响
尽管将这些技术表述为概率图模型可能不会立即用于解决任何特定问题,但该框架可能有助于选择、组合和发现新技术。
结语
对大型语言模型的研究非常活跃,并且发展迅速。研究人员不仅继续改进模型,而且还继续提高我们对如何最好地使用这些模型的理解。为了强调这些发展的速度,请注意,上面分享的所有论文都是在过去 12 个月内发表的(正如我在 2022 年月所写)。
在未来,期待更好的模型和更好的技术被发布。即使这里的特定技术被未来的最佳实践所掩盖,它们背后的一般原则也可能仍然是任何专家用户工具包的关键部分。
书目
课 | 纸 | 日期 |
---|---|---|
将复杂任务分解为更简单的子任务(并考虑向用户公开中间输出) | AI链:通过链接大型语言模型提示实现透明可控的人机交互 | 2021月 |
您可以通过生成许多候选项,然后选择看起来最好的一个来提高输出 | 训练验证员解决数学单词问题 | 2021月 |
在推理任务中,模型在回答之前逐步推理会做得更好 | 在大型语言模型中引发推理的思维链 | 2022月 |
您可以通过生成许多解释答案输出并选择最受欢迎的答案来改进分步推理 | 自洽性改善了语言模型中的思维推理链 | 2022月 |
如果你想微调一个分步推理器,你可以单独使用多项选择题和答案数据来完成。 | STaR:用推理引导推理 | 2022月 |
分步推理方法即使没有示例也能很好地工作 | 大型语言模型是零镜头推理器 | 2022月 |
您可以通过交替使用“选择”提示和“推理”提示来比分步推理做得更好 | 选择推理:利用大型语言模型进行可解释的逻辑推理 | 2022月 |
对于长推理问题,您可以通过将问题拆分为多个部分以增量方式解决来提高分步推理 | 从最少到最多的提示支持大型语言模型中的复杂推理 | 2022月 |
您可以让模型分析好的和虚假的解释,以确定哪组解释最一致 | Maieutic 提示:逻辑一致的推理与递归解释 | 2022月 |
你可以从概率编程的角度来考虑这些技术,其中系统由不可靠的组件组成。 | 语言模型级联 | 2022月 |
您可以通过句子标签操作消除幻觉,并且可以通过“halter”提示减少错误答案 | 使用大型语言模型进行忠实推理 | 2022月 |
评论 (0)