跳转至

文本Embedding

介绍

文本 Embedding是一种强大的技术,它允许我们将单词、句子甚至整个文档表示为高维空间中的密集向量。这些向量捕获了文本的语义含义,可以用于各种自然语言处理任务,如情感分析、语言翻译和文本分类。

通过利用先进的机器学习模型,Embedding可以生成高度表达和上下文感知的文本表示。这些嵌入使我们能够执行复杂的操作,如测量不同文本之间的语义相似性,找到嵌入空间中的最近邻居,甚至生成有意义的文本补全。

在这个指南中,我们以OpenAI为例,来Embedding的基本原理,并学习如何利用其强大的功能来增强我们的自然语言处理应用程序。

最佳实践

当你想要使用嵌入模型时,使用API或Python OpenAI库非常容易。你可以使用以下代码为你的文本数据生成嵌入:

curl -X POST "https://genaiapi.cloudsway.net/v1/ai/zUcfeMfrpNqyEhTN/embeddings" -H "Content-Type: application/json" -H "Authorization: Bearer YOUR_ACCESS_KEY" 
-d '{
  "input": "The quick brown fox jumps over the lazy dog."
}'

您可以在请求中指定的参数包括:

  • input:您想要生成嵌入的输入文本。
  • encoding_format(可选):嵌入的格式(例如,"float"或"base64")。这是一个可选参数,默认值为"float"。
  • dimension(可选):嵌入的维度。这是一个可选参数,只在text-embedding-3中支持。
  • user(可选):发出请求的用户的用户id。

发送请求后,您将收到一个包含输入文本的嵌入的响应。然后,您可以使用这些嵌入进行各种自然语言处理任务。

响应示例将是:

{
    "object": "list",
    "data": [
        {
            "object": "embeddng",
            "embedding": [
                0.1,
                0.2,
                0.3,
                ...
            ],
            index: 0
        }
    ],
    model: "text-embedding-ada-002",
    usage: {
        "prompt_tokens": 8,
        "total_tokens": 8
    }
}

您也可以使用Python OpenAI库来生成嵌入。以下是一个示例代码片段:

from openai import OpenAI
client=OpenAI(
    base_url="https://genaiapi.cloudsway.net/v1/ai/zUcfeMfrpNqyEhTN",
    api_key='YOUR_API_KEY'
)

response = client.embeddings.create(
    model="text-embedding-ada-002", # model = "deployment_name"
    input = ["plz introduce china in 10 words."],
)

print(response)