跳转至

MaaS-AFast-asr

公共信息

参数 描述 示例
basePath 调用mass api的基础路径 https://genaiapi.cloudsway.net/
endpointPath 调用mass api的生成的一段随机路径 LPUqHEAjfonOmohV
AccessKey 调用mass api的accessKey RWxxxxxxxx0Gd

按照上面示例,最终请求快速听录接口的路径为

https://genaiapi.cloudsway.net/v1/ai/LPUqHEAjfoohV/speechtotext/transcriptions:transcribe?api-version=2024-11-15

请求方法

POST

请求路径

{basePath}/v1/ai/{endpointPath}/speechtotext/transcriptions:transcribe?api-version=2024-11-15

参数 必填 描述
Authorization AccessKey
Bearer ${AccessKey}
Bearer RWxxxxxxxx0Gd

queryParams

参数 必填 描述
api-version 固定2024-11-15

请求formData

参数 必填 类型 描述
audio 音频文件 音频文件
definition json字符串 配置选项

definition

参数 必填 描述
channels 要单独转录的声道的从零开始的索引列表。 除非启用分割聚类,否则最多支持两个声道。 默认情况下,快速听录 API 将所有输入声道合并到单个声道,然后执行听录。 如果不希望这样处理,可以独立转录各个声道,而不进行合并。

如果要从立体声音频文件中单独转录各个声道,需要指定 [0,1][0] 和 [1]。 否则,立体声音频将合并为单声道,并且仅转录单个通声。

如果音频是立体声且已启用分割聚类,则无法将 channels 属性设置为 [0,1]。 语音服务不支持对多个声道进行分割聚类。

对于单声道音频,系统将忽略 channels 属性,始终将音频作为单声道进行转录。
diarization 分割聚类配置。 分割聚类是在一个音频声道中识别和分离说话人的过程。 例如,指定 "diarization": {"maxSpeakers": 2, "enabled": true}。 然后,听录文件会包含每个已转录短语的 speaker 个条目(例如 "speaker": 0 或 "speaker": 1)。
locales 否,但如果你知道预期的语言,建议指定语言。 语言列表应与要转录的音频数据的预期语言相匹配。

如果知道音频文件的语言设置,可以指定它以提高听录准确性并最大程度地减少延迟。 如果指定了单个语言,将使用该语言进行听录。

但是,如果不确定所使用的语言,可以指定多种语言。 候选语言列表越精确,语言识别可能越准确。

如果未指定任何语言,或者音频文件中没有指定的语言,那么语音服务将尝试识别语言。 如果无法识别语言,则会返回错误。

受支持的语言设置包括:de-DE、en-IN、en-US、es-ES、es-MX、fr-FR、hi-IN、it-IT、ja-JP、ko-KR、pt-BR 和 zh-CN。
profanityFilterMode 指定如何处理识别结果中的不雅内容。 接受的值为 None(禁用不雅内容筛选)、Masked(将不雅内容替换为星号)、Removed(从结果中删除所有不雅内容)或 Tags(添加不雅内容标记)。 默认值为 Masked

请求示例

curl --request POST \
  --url 'https://genaiapi.cloudsway.net/v1/ai/qyBrSaFJYWcM/speechtotext/transcriptions:transcribe?api-version=2024-11-15' \
  --header 'Authorization: Bearer ${AccessKey}' \
  --header 'Content-Type: multipart/form-data' \
  --form 'audio=@path/to/your/audio/file' \
  --form 'definition={
    "channels": [0],
    "locales": ["zh-CN"],
    "diarization": {
      "maxSpeakers": 2,
      "enabled": true
    },
    "profanityFilterMode": "Masked"
  }'

返回值

字段名 类型 描述
durationMilliseconds 整数 音频文件的总时长,单位为毫秒。
combinedPhrases 数组 合并后的短语列表
phrases 数组 各个短语的详细信息

combinedPhrases

字段名 类型 描述
text 字符串 合并后的短语文本。

phrases

字段名 类型 描述
speaker 字符串 说话者的标识符。
offsetMilliseconds 整数 短语在音频中的起始偏移,单位为毫秒。
durationMilliseconds 整数 短语的持续时间,单位为毫秒。
text 字符串 短语的文本内容。
words 数组 短语中的每个单词的详细信息
locale 字符串 短语的语言区域标识符。
confidence 浮点数 短语的识别置信度。

words

字段名 类型 描述
text 字符串 单词的文本内容。
offsetMilliseconds 整数 单词在短语中的起始偏移,单位为毫秒。
durationMilliseconds 整数 单词的持续时间,单位为毫秒。

返回值示例

{
    "durationMilliseconds": 1920,
    "combinedPhrases": [
        {
            "text": "Hello,我是谁啊?"
        }
    ],
    "phrases": [
        {
            "speaker": null,
            "offsetMilliseconds": 160,
            "durationMilliseconds": 1440,
            "text": "Hello,我是谁啊?",
            "words": [
                {
                    "text": "Hello,",
                    "offsetMilliseconds": 160,
                    "durationMilliseconds": 560
                },
                {
                    "text": "我",
                    "offsetMilliseconds": 720,
                    "durationMilliseconds": 240
                },
                {
                    "text": "是",
                    "offsetMilliseconds": 960,
                    "durationMilliseconds": 160
                },
                {
                    "text": "谁",
                    "offsetMilliseconds": 1120,
                    "durationMilliseconds": 240
                },
                {
                    "text": "啊?",
                    "offsetMilliseconds": 1360,
                    "durationMilliseconds": 240
                }
            ],
            "locale": "zh-CN",
            "confidence": 0.7978613
        }
    ]
}

音频文件支持

大小支持25M以下

  • WAV
  • MP3
  • OPUS/OGG
  • FLAC
  • WMA
  • AAC
  • WAV 容器中的 ALAW
  • WAV 容器中的 MULAW
  • AMR
  • WebM
  • M4A
  • SPEEX