MaaS-AFast-asr
公共信息
参数 | 描述 | 示例 |
---|---|---|
basePath | 调用mass api的基础路径 | https://genaiapi.cloudsway.net/ |
endpointPath | 调用mass api的生成的一段随机路径 | LPUqHEAjfonOmohV |
AccessKey | 调用mass api的accessKey | RWxxxxxxxx0Gd |
按照上面示例,最终请求快速听录
接口的路径为
https://genaiapi.cloudsway.net/v1/ai/LPUqHEAjfoohV/speechtotext/transcriptions:transcribe?api-version=2024-11-15
请求方法
POST
请求路径
{basePath}/v1/ai/{endpointPath}/speechtotext/transcriptions:transcribe?api-version=2024-11-15
请求header
参数 | 必填 | 描述 |
---|---|---|
Authorization | 是 | AccessKey Bearer ${AccessKey} Bearer RWxxxxxxxx0Gd |
queryParams
参数 | 必填 | 描述 |
---|---|---|
api-version | 是 | 固定2024-11-15 |
请求formData
参数 | 必填 | 类型 | 描述 |
---|---|---|---|
audio | 是 | 音频文件 | 音频文件 |
definition | 否 | json字符串 | 配置选项 |
definition
参数 | 必填 | 描述 |
---|---|---|
channels | 否 | 要单独转录的声道的从零开始的索引列表。 除非启用分割聚类,否则最多支持两个声道。 默认情况下,快速听录 API 将所有输入声道合并到单个声道,然后执行听录。 如果不希望这样处理,可以独立转录各个声道,而不进行合并。 如果要从立体声音频文件中单独转录各个声道,需要指定 [0,1] 、[0] 和 [1] 。 否则,立体声音频将合并为单声道,并且仅转录单个通声。 如果音频是立体声且已启用分割聚类,则无法将 channels 属性设置为 [0,1] 。 语音服务不支持对多个声道进行分割聚类。 对于单声道音频,系统将忽略 channels 属性,始终将音频作为单声道进行转录。 |
diarization | 否 | 分割聚类配置。 分割聚类是在一个音频声道中识别和分离说话人的过程。 例如,指定 "diarization": {"maxSpeakers": 2, "enabled": true} 。 然后,听录文件会包含每个已转录短语的 speaker 个条目(例如 "speaker": 0 或 "speaker": 1 )。 |
locales | 否,但如果你知道预期的语言,建议指定语言。 | 语言列表应与要转录的音频数据的预期语言相匹配。 如果知道音频文件的语言设置,可以指定它以提高听录准确性并最大程度地减少延迟。 如果指定了单个语言,将使用该语言进行听录。 但是,如果不确定所使用的语言,可以指定多种语言。 候选语言列表越精确,语言识别可能越准确。 如果未指定任何语言,或者音频文件中没有指定的语言,那么语音服务将尝试识别语言。 如果无法识别语言,则会返回错误。 受支持的语言设置包括:de-DE、en-IN、en-US、es-ES、es-MX、fr-FR、hi-IN、it-IT、ja-JP、ko-KR、pt-BR 和 zh-CN。 |
profanityFilterMode | 否 | 指定如何处理识别结果中的不雅内容。 接受的值为 None (禁用不雅内容筛选)、Masked (将不雅内容替换为星号)、Removed (从结果中删除所有不雅内容)或 Tags (添加不雅内容标记)。 默认值为 Masked 。 |
请求示例
curl --request POST \
--url 'https://genaiapi.cloudsway.net/v1/ai/qyBrSaFJYWcM/speechtotext/transcriptions:transcribe?api-version=2024-11-15' \
--header 'Authorization: Bearer ${AccessKey}' \
--header 'Content-Type: multipart/form-data' \
--form 'audio=@path/to/your/audio/file' \
--form 'definition={
"channels": [0],
"locales": ["zh-CN"],
"diarization": {
"maxSpeakers": 2,
"enabled": true
},
"profanityFilterMode": "Masked"
}'
返回值
字段名 | 类型 | 描述 |
---|---|---|
durationMilliseconds | 整数 | 音频文件的总时长,单位为毫秒。 |
combinedPhrases | 数组 | 合并后的短语列表 |
phrases | 数组 | 各个短语的详细信息 |
combinedPhrases
字段名 | 类型 | 描述 |
---|---|---|
text | 字符串 | 合并后的短语文本。 |
phrases
字段名 | 类型 | 描述 |
---|---|---|
speaker | 字符串 | 说话者的标识符。 |
offsetMilliseconds | 整数 | 短语在音频中的起始偏移,单位为毫秒。 |
durationMilliseconds | 整数 | 短语的持续时间,单位为毫秒。 |
text | 字符串 | 短语的文本内容。 |
words | 数组 | 短语中的每个单词的详细信息 |
locale | 字符串 | 短语的语言区域标识符。 |
confidence | 浮点数 | 短语的识别置信度。 |
words
字段名 | 类型 | 描述 |
---|---|---|
text | 字符串 | 单词的文本内容。 |
offsetMilliseconds | 整数 | 单词在短语中的起始偏移,单位为毫秒。 |
durationMilliseconds | 整数 | 单词的持续时间,单位为毫秒。 |
返回值示例
{
"durationMilliseconds": 1920,
"combinedPhrases": [
{
"text": "Hello,我是谁啊?"
}
],
"phrases": [
{
"speaker": null,
"offsetMilliseconds": 160,
"durationMilliseconds": 1440,
"text": "Hello,我是谁啊?",
"words": [
{
"text": "Hello,",
"offsetMilliseconds": 160,
"durationMilliseconds": 560
},
{
"text": "我",
"offsetMilliseconds": 720,
"durationMilliseconds": 240
},
{
"text": "是",
"offsetMilliseconds": 960,
"durationMilliseconds": 160
},
{
"text": "谁",
"offsetMilliseconds": 1120,
"durationMilliseconds": 240
},
{
"text": "啊?",
"offsetMilliseconds": 1360,
"durationMilliseconds": 240
}
],
"locale": "zh-CN",
"confidence": 0.7978613
}
]
}
音频文件支持
大小支持25M以下
- WAV
- MP3
- OPUS/OGG
- FLAC
- WMA
- AAC
- WAV 容器中的 ALAW
- WAV 容器中的 MULAW
- AMR
- WebM
- M4A
- SPEEX