Prompt 高级用法
虽然这些示例很有趣,但在我们进入更高级的概念之前,让我们更正式地介绍一些概念。
较少的样本提示
在进入更高级的概念之前,让我们回顾一个使用少数样本提示的示例。
您是否还记得上一个示例,其中我们提供了以下任务
这组中的奇数加起来是偶数:15、32、5、13、82、7、1。 A:
如果我们再次尝试此操作,模型将输出以下内容:
是的,这组奇数加起来是107,是偶数。
同样,这不是正确的响应,这不仅突出了这些系统的局限性,而且需要更先进的快速工程。
让我们尝试添加一些示例,看看这是否会改善结果。
这组中的奇数加起来是偶数:4、8、9、15、12、2、1。 答:答案是假的。 这组中的奇数加起来是偶数:17、10、19、4、8、12、24。 答:答案是正确的。 这组中的奇数加起来是偶数:16、11、14、4、8、13、24。 答:答案是正确的。 这组中的奇数加起来是偶数:17、9、10、12、13、4、2。 答:答案是假的。 这组中的奇数加起来是偶数:15、32、5、13、82、7、1。 A:
输出
答案是正确的。
那行不通。似乎基本的标准提示不足以获得对此类推理问题的可靠响应。上面的示例提供了有关任务的基本信息,即使有示例也是如此。如果你仔细看看这个任务,它确实涉及更多的推理步骤。
最近,思维链(CoT)提示已被推广到解决更复杂的算术, 常识和符号推理任务。那么接下来我们来谈谈CoT,看看我们能不能解决上面的任务。
根据 Min et al. (2022) 的发现,这里有一些关于在做少量样本时的演示/示例的更多提示:
- 演示指定的标签空间和输入文本的分布都是关键(无论标签是否正确) 对于单个输入)。
- 您使用的格式在性能方面也起着关键作用;即使您只是使用随机标签,这也比根本没有标签要好得多。
- 其他结果表明,从标签的真实分布(而不是均匀分布)中选择随机标签也有帮助。
让我们尝试几个例子。让我们首先尝试一个带有随机标签的示例(这意味着标签负和正是随机分配给输入的):
这太棒了! // 消极的 这不好! // 积极的 哇那部电影太棒了! // 积极的 多么可怕的表演! //
输出
消极的
我们仍然得到正确的答案,即使标签是随机的。请注意,我们还保留了格式,这也很有帮助。事实上,随着进一步的实验,我们正在试验的较新的 GPT 模型似乎对随机格式变得更加强大。例:
积极 这太棒了! 这不好! 消极的 哇那部电影太棒了! 积极的 多么可怕的表演! --
输出
消极的
上述格式没有一致性,但这仍然会影响模型预测正确的标签。我们必须进行更彻底的分析,以确认这是否适用于不同和更复杂的任务。
思维链提示
Wei Wei et al. (2022) 中引入的思维链 (CoT) 提示通过中间推理步骤实现复杂的推理能力。您可以将其与少数样本提示相结合,以便在响应之前需要推理的更复杂的任务上获得更好的结果。
这组中的奇数加起来是偶数:4、8、9、15、12、2、1。 A:将所有奇数 (9, 15, 1) 相加得到 25。答案为假。 这组中的奇数加起来是偶数:17、10、19、4、8、12、24。 A:将所有奇数 (17, 19) 相加得到 36。答案是正确的。 这组中的奇数加起来是偶数:16、11、14、4、8、13、24。 A:将所有奇数 (11, 13) 相加得到 24。答案是正确的。 这组中的奇数加起来是偶数:17、9、10、12、13、4、2。 A:将所有奇数(17、9、13)相加得到 39。答案为假。 这组中的奇数加起来是偶数:15、32、5、13、82、7、1。 A:
输出
将所有奇数(15、5、13、7、1)相加得到 41。答案为假。
哇!当我们提供推理步骤时,我们可以看到一个完美的结果。事实上,我们可以通过提供更少的示例来解决此任务,即只需一个例子似乎就足够了:
这组中的奇数加起来是偶数:4、8、9、15、12、2、1。 A:将所有奇数 (9, 15, 1) 相加得到 25。答案为假。 这组中的奇数加起来是偶数:15、32、5、13、82、7、1。 A:
输出
将所有奇数(15、5、13、7、1)相加得到 41。答案为假。
请记住,作者声称这是一种由足够大的语言模型产生的涌现能力。
零样本CoT
最近出现的一个想法是零样本CoT的想法,它基本上涉及在原始提示中添加“让我们一步一步地思考”。让我们尝试一个简单的问题,看看模型的性能如何:
我去市场买了 10 个苹果。 我给了邻居 2 个苹果,给了修理工 2 个。 然后我又买了 5 个苹果,吃了 1 个。我还剩下多少个苹果?
输出
11个苹果
答案是不正确的!现在让我们尝试使用特殊提示。
我去市场买了 10 个苹果。 我给了邻居 2 个苹果,给了修理工 2 个。 然后我又买了 5 个苹果,吃了 1 个。我还剩下多少个苹果? 让我们一步一步地思考。
输出
首先,您从 10 个苹果开始。 你给了邻居 2 个苹果,给了修理工 2 个,所以你还剩下 6 个苹果。 然后你又买了 5 个苹果,所以现在你有 11 个苹果。 最后,你吃了 1 个苹果,所以你还剩下 10 个苹果。
实际上令人印象深刻的是,这个简单的提示在这项任务中很有效。当您在提示中没有太多示例可以使用时,这特别有用。
自我一致性
也许用于快速工程的更高级技术之一是自我一致性。Wang et al. (2022) 提出,自我一致性旨在“取代思维链提示中使用的天真贪婪解码”。这个想法是通过少数样本CoT对多种不同的推理路径进行采样,并使用世代来选择最一致的答案。这有助于提高CoT提示在涉及算术和常识推理的任务上的性能。
让我们尝试以下示例进行算术推理:
我 6 岁的时候,我姐姐只有我一半大。 现在 我70岁了,我妹妹几岁?
输出
35
输出明显错误!我们如何通过自洽来改善这一点?让我们尝试一下。我们将使用 Wang 等人 2022 年的少数样本示例(表 17):
问:树林里有 15 棵树。 今天,树林工人将在树林里植树。 他们完成后, 将有 21 棵树。 树林工人今天种了多少棵树? A:我们从 15 棵树开始。 后来我们有 21 棵树。 差异必须是他们种植的树木数量。 所以,他们一定种了 21 - 15 = 6 棵树。 答案是 6。 问:如果停车场有 3 辆车,还有 2 辆车到达,停车场有多少辆车? A: 停车场里已经有 3 辆车了。 还有 2 个到达。 现在有 3 + 2 = 5 辆车。 答案是 5。 问:利亚有 32 块巧克力,她姐姐有 42 块。如果他们吃了 35 块,他们总共还剩下多少块? A: Leah 有 32 块巧克力,Leah 的姐姐有 42 块。也就是说原来有 32 + 42 = 74 巧克力。 吃了35个。 所以他们总共还有 74 - 35 = 39 块巧克力。 答案是 39。 问:杰森有 20 根棒棒糖。 他给丹尼一些棒棒糖。 现在杰森有 12 根棒棒糖。 多少棒棒糖 杰森给丹尼了吗? A:杰森有 20 根棒棒糖。 既然他现在只有12个,那他肯定把剩下的给了丹尼。 的数量 他给丹尼的棒棒糖一定是 20 - 12 = 8 棒棒糖。 答案是8。 问:肖恩有五个玩具。 圣诞节,他从爸爸妈妈那里得到了两个玩具。 有多少玩具 他现在有吗? A:他有5个玩具。 他从妈妈那里得到了 2 个,所以之后他有 5 + 2 = 7 个玩具。 然后他又从爸爸那里得到了 2 个,所以 他总共有 7 + 2 = 9 个玩具。 答案是9。 问:服务器机房里有九台电脑。 每天安装五台以上的电脑,从 周一到周四。 服务器机房里现在有多少台电脑? A:周一到周四有4天。 每天增加 5 台计算机。 这意味着总共 4 * 5 = 增加了 20 台计算机。 一开始有9台电脑,所以现在有9+20=29台电脑。 答案是 29。 问:迈克尔有 58 个高尔夫球。 周二,他丢了 23 个高尔夫球。 周三,他又输了 2 场。 多少 星期三结束时他有高尔夫球吗? 答:迈克尔最初有 58 个球。 他在星期二输了 23,所以在那之后他有 58 - 23 = 35 个球。 在 星期三他又输了 2 个,所以现在他有 35 - 2 = 33 个球。 答案是 33。 问:奥利维亚有 23 美元。 她以每个 3 美元的价格买了五个百吉饼。 她还剩多少钱? A:她以每个 3 美元的价格买了 5 个百吉饼。 这意味着她花了 5 问:当我 6 岁时,我姐姐只有我一半大。 现在我 70 岁了,我妹妹几岁? A:
产出1:
我 6 岁时,我姐姐是我一半大,所以她是 3。现在我 70 岁,所以她是 70 - 3 = 67。答案是 67。
产出2:
叙述者 6 岁时,他的妹妹是他年龄的一半,即 3 岁。现在叙述者 70 岁,他的妹妹将是 70 - 3 = 67 岁。 答案是 67。
产出3:
当我 6 岁时,我姐姐的年龄只有我的一半,所以她是 3。现在我 70 岁,所以她是 70/2 = 35。答案是 35。
最终答案的计算涉及几个步骤(有关详细信息,请查看论文),但为了简单起见,我们可以清楚地看到已经出现了多数答案,因此这基本上将成为最终答案。
生成知识提示
LLM不断改进,一种流行的技术包括整合知识或信息的能力,以帮助模型做出更准确的预测。
使用类似的想法,模型是否也可以用于在做出预测之前生成知识?这就是 Liu 等人在 2022 年的论文中尝试的内容——生成知识以用作提示的一部分。特别是,这对常识推理等任务有多大帮助?
让我们尝试一个简单的提示:
高尔夫的一部分是试图获得比其他人更高的总分。 是还是不是?
输出
是的。
这种类型的错误揭示了LLM执行需要更多世界知识的任务的局限性。我们如何通过知识生成来改善这一点?
首先,我们生成一些“知识”:
输入:希腊比墨西哥大。 知识:希腊大约有 131,957 平方公里,而墨西哥大约有 1,964,375 平方公里,墨西哥比希腊大 1,389%。 输入:眼镜总是起雾。 知识:当您的汗水、呼吸和环境湿度中的水蒸气落在冷表面上、冷却,然后变成微小的液体滴,形成一层您看到的雾状薄膜时,眼镜镜片上就会发生凝结。 与您的呼吸相比,您的镜片会相对凉爽,尤其是当室外空气寒冷时。 输入:一条鱼能够思考。 知识:鱼比看起来更聪明。 在记忆等许多领域,它们的认知能力与包括非人类灵长类动物在内的"高等"脊椎动物相当或超过它们的认知能力。 鱼的长期记忆帮助它们跟踪复杂的社会关系。 输入:一生中大量吸烟的一个常见影响是患肺癌的几率高于正常水平。 知识:那些在一生中平均每天平均吸烟少于一支的人死于肺癌的风险是从不吸烟者的九倍。 在每天吸 1 到 10 支香烟的人中,死于肺癌的风险比从不吸烟的人高出近 12 倍。 输入:一块石头和鹅卵石一样大。 知识:根据 Udden-Wentworth 沉积学尺度,鹅卵石是粒径为 4 至 64 毫米的岩石碎屑。 通常认为鹅卵石大于颗粒(直径 2 至 4 毫米),小于卵石(直径 64 至 256 毫米)。 输入:高尔夫的一部分是试图获得比其他人更高的总分。 知识:
知识1:
高尔夫的目标是以最少的杆数打完一组球洞。 一轮高尔夫球通常由 18 个洞组成。 每个洞在标准高尔夫球场上一轮打一次。 每杆计一分,总杆数决定比赛胜负。
知识2:
高尔夫是一项精确的球杆和球类运动,参赛选手(或高尔夫球手)使用多种类型的球杆以最少的击球次数将球击入球场上的一系列球洞中。 目标是以最低分数完成课程,该分数是通过将每个洞的总杆数相加计算得出的。 得分最低的玩家赢得游戏。
我们正在使用 Liu 等人 2022 年论文中提供的提示。
下一步是整合知识并获得预测。我将问题重新格式化为 QA 格式以指导答案格式。
问题:高尔夫的一部分是试图获得比其他人更高的总分。 是还是不是? 知识:高尔夫的目标是以最少的杆数打出一组球洞。 一轮高尔夫球通常由 18 个洞组成。 每个洞在标准高尔夫球场上一轮打一次。 每杆计一分,总杆数决定比赛胜负。 解释与回答:
答案 1(置信度非常高):
不,高尔夫的目标不是获得比其他人更高的总分。 相反,目标是以最少的杆数打完一组球洞。 总杆数用于决定比赛的胜负,而不是总积分。
问题:高尔夫的一部分是试图获得比其他人更高的总分。 是还是不是? 知识:高尔夫是一项精确的球杆和球运动,参赛选手(或高尔夫球手)使用多种类型的球杆以最少的击球次数将球击入球场上的一系列球洞中。 目标是以最低分数完成课程,该分数是通过将每个洞的总杆数相加计算得出的。 得分最低的玩家赢得游戏。 解释与回答:
答案 2(置信度要低得多):
是的,高尔夫的一部分是试图获得比其他人更高的总分。 每个球员都试图以最低分数完成课程,最低分数是通过将每个洞的总杆数相加计算得出的。 得分最低的玩家赢得游戏。
这个例子发生了一些非常有趣的事情。在第一个答案中,模型非常自信,但在第二个答案中则不那么自信。出于演示目的,我简化了该过程,但在得出最终答案时,需要考虑更多细节。查看论文了解更多信息。
评论 (0)