openAI|文本比较示例

OpenAI API 嵌入终结点可用于衡量文本片段之间的相关性或相似性,例如语义搜索、问答、建议和自定义嵌入等操作。余弦相似性分数可以用作排名搜索结果中众多特征中的一个。

文本比较示例

OpenAI API 的嵌入终结点可用于衡量文本片段之间的相关性或相似性。本文介绍了如何使用嵌入进行语义搜索、问答、建议和自定义嵌入等操作,以及如何将嵌入作为更大系统中的一个功能使用。

正文

OpenAI API 嵌入终结点可用于衡量文本片段之间的相关性或相似性。

通过利用 GPT-3 对文本的理解,这些嵌入在无监督学习和迁移学习设置中的基准测试上取得了最先进的结果

嵌入可用于语义搜索、建议、聚类分析、近似重复检测等。

有关更多信息,请阅读OpenAI的博客文章公告:

语义搜索

嵌入可以单独用于搜索,也可以作为更大系统中的一个功能使用。

使用嵌入进行搜索的最简单方法如下:

  • 搜索之前(预计算):
    • 将文本语料库拆分为小于令牌限制的块(8,191 个令牌text-embedding-ada-002)
    • 嵌入每个文本块
    • 将这些嵌入存储在您自己的数据库或矢量搜索提供程序(如PineconeWeaviate)中
  • 在搜索(实时计算)时:
    • 嵌入搜索查询
    • 查找数据库中最近的嵌入
    • 返回顶部结果

在更高级的搜索系统中,嵌入的余弦相似性可以用作排名搜索结果中众多特征中的一个。

问答

从 GPT-3 获得可靠诚实答案的最佳方法是为其提供可以找到正确答案的源文档。使用上面的语义搜索过程,您可以廉价地搜索文档语料库以获取相关信息,然后通过提示将该信息提供给 GPT-3 以回答问题。我们在 openAI|使用嵌入进行问答 中演示。

建议

建议与搜索非常相似,不同之处在于输入不是自由格式的文本查询,而是集合中的项。

openAI|使用嵌入的建议 中显示了如何使用嵌入进行推荐的示例。

与搜索类似,这些余弦相似性分数既可以单独用于对项目进行排名,也可以作为较大排名算法中的特征使用。

自定义嵌入

尽管 OpenAI 的嵌入模型权重无法微调,但您仍然可以使用训练数据为您的应用程序自定义嵌入。

我们提供了一种使用训练数据自定义嵌入的示例方法。该方法的想法是训练一个自定义矩阵以将嵌入向量乘以以获得新的自定义嵌入。借助良好的训练数据,此自定义矩阵将有助于强调与训练标签相关的功能。您可以等效地将矩阵乘法视为 (a) 嵌入的修改或 (b) 用于测量嵌入之间距离的距离函数的修改。

此文章由OpenAI开源维基百科原创发布,如若转载请注明出处:https://openai.wiki/text_comparison_examples.html

(0)
上一篇 2023-02-20 12:17
下一篇 2023-02-20 12:20

相关推荐

  • GPT-3|微调分类

    本篇文章讲述了使用GPT-3对文本进行分类的实践,并分享微调GPT-3进行文本分类的方法。文章包括数据探索和数据准备等环节,并介绍了如何使用Sklearn和Pandas等工具对数据集进行操作。

    2023-02-20
    002.5K
  • ChatGPT|制作清晰有效的Prompt指南

    本文介绍了如何制作清晰有效的ChatGPT提示以推动引人入胜且信息丰富的对话,从ChatGPT的基础知识及其工作原理到制作引人注目的提示和解决常见问题的高级技术的所有内容,本文提供了详细的指南和建议。

    ChatGPT 2023-02-18
    012.5K
  • Auto-GPT-ZH|ChatGPT中文自动化

    Auto-GPT-ZH是一个支持中文的实验性开源应用程序,展示了GPT-4语言模型的能力。它具备互联网搜索、长期和短期记忆管理、文本生成、访问流行网站和平台等功能,使用GPT-3.5进行文件存储和摘要。使用该开源项目可以让您的ChatGPT拥有自动化处理的功能,让您抛弃繁琐的监督和纠错过程,本站提供完整的使用帮助教程。

    2023-04-20
    0123.1K
  • GPT-3|文本写作示例

    本文介绍了如何使用GPT-3语言模型在各种写作任务中协助您,例如博客文章、电子邮件、广告文案等。使用简单的提示,GPT-3可以生成满足特定需求的文本。

    ChatGPT 2023-02-20
    00939
  • api_request_parallel_processor.py

    API 请求并行处理器使用OpenAI API快速处理大量文本需要小心。如果您逐一提交百万个API请求,它们将需要数天时间才能完成。如果您并行涌入一百万个API请求,它们将超出速率限制并因错误而失败。

    ChatGPT 2023-02-18
    002.3K

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

微信