嵌入式模型
MaaS-embedding-3-large 是最新且能力最强的嵌入模型。 无法在嵌入模型之间进行升级。 若要从使用 text-embedding-ada-002 转移到 MaaS-embedding-3-large,你需要生成新的嵌入内容。
以下模型都已支持购买:
- MaaS-embedding-3-large
- MaaS-embedding-3-small
- MaaS-embedding-ada-002
MaaS-embedding-3-large
- 性能强劲
在常用的多语言检索基准测试(miracl)中平均得分从 31.4% 提高到 54.9%,在英语任务基准测试(mteb)中平均得分从 61.0% 提高到 64.6%,能够更准确地理解和处理文本内容,创建高达 3072 维的嵌入,为复杂的自然语言处理任务提供更丰富的语义表示 。
- 支持灵活调整
开发者可以通过在 dimensions api 参数中传递嵌入而不丢失其概念表征属性,从而缩短嵌入(即从序列末尾删除一些数字),以在性能和成本之间做出权衡,适应不同的应用场景和资源限制。
- 应用广泛
可用于多种自然语言处理任务和应用场景,如文本聚类、检索、知识图谱构建等,为 ChatGPT 和 Assistants API 中的知识检索等应用程序以及许多检索增强生成(RAG)开发工具提供支持
MaaS-embedding-3-small
- 性能提升
与前一代模型 MaaS-embedding-ada-002 相比,在常用多语言检索基准测试(miracl)中平均得分从 31.4% 提高到 44.0%,在英语任务基准测试(mteb)中平均得分从 61.0% 增加到 62.3%,性能有所增强。
- 支持缩短嵌入
开发者可以通过在 dimensions api 参数中传递嵌入而不丢失其概念表征属性,从而缩短嵌入(即从序列末尾删除一些数字),以在性能和成本之间做出权衡,适应不同的应用场景和资源限制。
MaaS-embedding-ada-002
- 价格便宜
相对其他模型,在成本方面具有优势,降低了使用门槛。
- 性能强大
在文本搜索、代码搜索和句子相似性任务上超越了旧的嵌入模型,且在文本分类上也有不错的性能表现,可用于多种自然语言处理任务,如文本聚类、情感分析、机器翻译等。
- 理解文本意义
不仅关注文本字面意思,还能把握深层含义,比如理解同义词或词语在上下文中的具体含义,使生成的嵌入向量能反映语义特征。
- 高维数据压缩
可以把复杂的文本信息压缩成较为简单的数值向量,在保留关键信息的同时降低了数据维度。
- 多用途
嵌入方式通用,适用于多种不同的自然语言处理任务。
- 基于深度学习
基于深度学习技术构建,在大量文本数据上进行过训练,从而学会了如何有效地表示和理解语言
- 可转换为数值向量
将文本转换为数值向量,有助于计算机利用各种算法进行处理。
- 方便后续任务
生成的文本数值向量可用于训练机器学习模型,或用于各种数据分析和自然语言处理任务。
- 预训练模型
是预先训练好的模型,用户可以直接使用,无需从头开始训练。