MaaS-AFast-asr
公共信息
| 参数 | 描述 | 示例 | 
|---|---|---|
| basePath | 调用mass api的基础路径 | https://genaiapi.cloudsway.net/ | 
| endpointPath | 调用mass api的生成的一段随机路径 | LPUqHEAjfonOmohV | 
| AccessKey | 调用mass api的accessKey | RWxxxxxxxx0Gd | 
按照上面示例,最终请求快速听录接口的路径为
https://genaiapi.cloudsway.net/v1/ai/LPUqHEAjfoohV/speechtotext/transcriptions:transcribe?api-version=2024-11-15
请求方法
POST
请求路径
{basePath}/v1/ai/{endpointPath}/speechtotext/transcriptions:transcribe?api-version=2024-11-15
请求header
| 参数 | 必填 | 描述 | 
|---|---|---|
| Authorization | 是 | AccessKey Bearer ${AccessKey} Bearer RWxxxxxxxx0Gd | 
queryParams
| 参数 | 必填 | 描述 | 
|---|---|---|
| api-version | 是 | 固定2024-11-15 | 
请求formData
| 参数 | 必填 | 类型 | 描述 | 
|---|---|---|---|
| audio | 是 | 音频文件 | 音频文件 | 
| definition | 否 | json字符串 | 配置选项 | 
definition
| 参数 | 必填 | 描述 | 
|---|---|---|
| channels | 否 | 要单独转录的声道的从零开始的索引列表。 除非启用分割聚类,否则最多支持两个声道。 默认情况下,快速听录 API 将所有输入声道合并到单个声道,然后执行听录。 如果不希望这样处理,可以独立转录各个声道,而不进行合并。 如果要从立体声音频文件中单独转录各个声道,需要指定 [0,1]、[0]和[1]。 否则,立体声音频将合并为单声道,并且仅转录单个通声。如果音频是立体声且已启用分割聚类,则无法将 channels属性设置为[0,1]。 语音服务不支持对多个声道进行分割聚类。对于单声道音频,系统将忽略 channels属性,始终将音频作为单声道进行转录。 | 
| diarization | 否 | 分割聚类配置。 分割聚类是在一个音频声道中识别和分离说话人的过程。 例如,指定 "diarization": {"maxSpeakers": 2, "enabled": true}。 然后,听录文件会包含每个已转录短语的speaker个条目(例如"speaker": 0或"speaker": 1)。 | 
| locales | 否,但如果你知道预期的语言,建议指定语言。 | 语言列表应与要转录的音频数据的预期语言相匹配。 如果知道音频文件的语言设置,可以指定它以提高听录准确性并最大程度地减少延迟。 如果指定了单个语言,将使用该语言进行听录。 但是,如果不确定所使用的语言,可以指定多种语言。 候选语言列表越精确,语言识别可能越准确。 如果未指定任何语言,或者音频文件中没有指定的语言,那么语音服务将尝试识别语言。 如果无法识别语言,则会返回错误。 受支持的语言设置包括:de-DE、en-IN、en-US、es-ES、es-MX、fr-FR、hi-IN、it-IT、ja-JP、ko-KR、pt-BR 和 zh-CN。 | 
| profanityFilterMode | 否 | 指定如何处理识别结果中的不雅内容。 接受的值为 None(禁用不雅内容筛选)、Masked(将不雅内容替换为星号)、Removed(从结果中删除所有不雅内容)或Tags(添加不雅内容标记)。 默认值为Masked。 | 
请求示例
curl --request POST \
  --url 'https://genaiapi.cloudsway.net/v1/ai/qyBrSaFJYWcM/speechtotext/transcriptions:transcribe?api-version=2024-11-15' \
  --header 'Authorization: Bearer ${AccessKey}' \
  --header 'Content-Type: multipart/form-data' \
  --form 'audio=@path/to/your/audio/file' \
  --form 'definition={
    "channels": [0],
    "locales": ["zh-CN"],
    "diarization": {
      "maxSpeakers": 2,
      "enabled": true
    },
    "profanityFilterMode": "Masked"
  }'
返回值
| 字段名 | 类型 | 描述 | 
|---|---|---|
| durationMilliseconds | 整数 | 音频文件的总时长,单位为毫秒。 | 
| combinedPhrases | 数组 | 合并后的短语列表 | 
| phrases | 数组 | 各个短语的详细信息 | 
combinedPhrases
| 字段名 | 类型 | 描述 | 
|---|---|---|
| text | 字符串 | 合并后的短语文本。 | 
phrases
| 字段名 | 类型 | 描述 | 
|---|---|---|
| speaker | 字符串 | 说话者的标识符。 | 
| offsetMilliseconds | 整数 | 短语在音频中的起始偏移,单位为毫秒。 | 
| durationMilliseconds | 整数 | 短语的持续时间,单位为毫秒。 | 
| text | 字符串 | 短语的文本内容。 | 
| words | 数组 | 短语中的每个单词的详细信息 | 
| locale | 字符串 | 短语的语言区域标识符。 | 
| confidence | 浮点数 | 短语的识别置信度。 | 
words
| 字段名 | 类型 | 描述 | 
|---|---|---|
| text | 字符串 | 单词的文本内容。 | 
| offsetMilliseconds | 整数 | 单词在短语中的起始偏移,单位为毫秒。 | 
| durationMilliseconds | 整数 | 单词的持续时间,单位为毫秒。 | 
返回值示例
{
    "durationMilliseconds": 1920,
    "combinedPhrases": [
        {
            "text": "Hello,我是谁啊?"
        }
    ],
    "phrases": [
        {
            "speaker": null,
            "offsetMilliseconds": 160,
            "durationMilliseconds": 1440,
            "text": "Hello,我是谁啊?",
            "words": [
                {
                    "text": "Hello,",
                    "offsetMilliseconds": 160,
                    "durationMilliseconds": 560
                },
                {
                    "text": "我",
                    "offsetMilliseconds": 720,
                    "durationMilliseconds": 240
                },
                {
                    "text": "是",
                    "offsetMilliseconds": 960,
                    "durationMilliseconds": 160
                },
                {
                    "text": "谁",
                    "offsetMilliseconds": 1120,
                    "durationMilliseconds": 240
                },
                {
                    "text": "啊?",
                    "offsetMilliseconds": 1360,
                    "durationMilliseconds": 240
                }
            ],
            "locale": "zh-CN",
            "confidence": 0.7978613
        }
    ]
}
音频文件支持
大小支持25M以下
- WAV
- MP3
- OPUS/OGG
- FLAC
- WMA
- AAC
- WAV 容器中的 ALAW
- WAV 容器中的 MULAW
- AMR
- WebM
- M4A
- SPEEX