MaaS-AFast-asr

公共信息

参数	描述	示例
basePath	调用mass api的基础路径	https://genaiapi.cloudsway.net/
endpointPath	调用mass api的生成的一段随机路径	LPUqHEAjfonOmohV
AccessKey	调用mass api的accessKey	RWxxxxxxxx0Gd

按照上面示例,最终请求快速听录接口的路径为

https://genaiapi.cloudsway.net/v1/ai/LPUqHEAjfoohV/speechtotext/transcriptions:transcribe?api-version=2024-11-15

请求方法

POST

请求路径

{basePath}/v1/ai/{endpointPath}/speechtotext/transcriptions:transcribe?api-version=2024-11-15

参数	必填	描述
Authorization	是	AccessKey Bearer ${AccessKey} Bearer RWxxxxxxxx0Gd

queryParams

参数	必填	描述
api-version	是	固定2024-11-15

请求formData

参数	必填	类型	描述
audio	是	音频文件	音频文件
definition	否	json字符串	配置选项

definition

参数	必填	描述
channels	否	要单独转录的声道的从零开始的索引列表。除非启用分割聚类，否则最多支持两个声道。默认情况下，快速听录 API 将所有输入声道合并到单个声道，然后执行听录。如果不希望这样处理，可以独立转录各个声道，而不进行合并。如果要从立体声音频文件中单独转录各个声道，需要指定 `[0,1]`、`[0]` 和 `[1]`。否则，立体声音频将合并为单声道，并且仅转录单个通声。如果音频是立体声且已启用分割聚类，则无法将 `channels` 属性设置为 `[0,1]`。语音服务不支持对多个声道进行分割聚类。对于单声道音频，系统将忽略 `channels` 属性，始终将音频作为单声道进行转录。
diarization	否	分割聚类配置。分割聚类是在一个音频声道中识别和分离说话人的过程。例如，指定 `"diarization": {"maxSpeakers": 2, "enabled": true}`。然后，听录文件会包含每个已转录短语的 `speaker` 个条目(例如 `"speaker": 0` 或 `"speaker": 1`)。
locales	否，但如果你知道预期的语言，建议指定语言。	语言列表应与要转录的音频数据的预期语言相匹配。如果知道音频文件的语言设置，可以指定它以提高听录准确性并最大程度地减少延迟。如果指定了单个语言，将使用该语言进行听录。但是，如果不确定所使用的语言，可以指定多种语言。候选语言列表越精确，语言识别可能越准确。如果未指定任何语言，或者音频文件中没有指定的语言，那么语音服务将尝试识别语言。如果无法识别语言，则会返回错误。受支持的语言设置包括：de-DE、en-IN、en-US、es-ES、es-MX、fr-FR、hi-IN、it-IT、ja-JP、ko-KR、pt-BR 和 zh-CN。
profanityFilterMode	否	指定如何处理识别结果中的不雅内容。接受的值为 `None`（禁用不雅内容筛选）、`Masked`（将不雅内容替换为星号）、`Removed`（从结果中删除所有不雅内容）或 `Tags`（添加不雅内容标记）。默认值为 `Masked`。

请求示例

curl --request POST \
  --url 'https://genaiapi.cloudsway.net/v1/ai/qyBrSaFJYWcM/speechtotext/transcriptions:transcribe?api-version=2024-11-15' \
  --header 'Authorization: Bearer ${AccessKey}' \
  --header 'Content-Type: multipart/form-data' \
  --form 'audio=@path/to/your/audio/file' \
  --form 'definition={
    "channels": [0],
    "locales": ["zh-CN"],
    "diarization": {
      "maxSpeakers": 2,
      "enabled": true
    },
    "profanityFilterMode": "Masked"
  }'

返回值

字段名	类型	描述
durationMilliseconds	整数	音频文件的总时长，单位为毫秒。
combinedPhrases	数组	合并后的短语列表
phrases	数组	各个短语的详细信息

combinedPhrases

字段名	类型	描述
text	字符串	合并后的短语文本。

phrases

字段名	类型	描述
speaker	字符串	说话者的标识符。
offsetMilliseconds	整数	短语在音频中的起始偏移，单位为毫秒。
durationMilliseconds	整数	短语的持续时间，单位为毫秒。
text	字符串	短语的文本内容。
words	数组	短语中的每个单词的详细信息
locale	字符串	短语的语言区域标识符。
confidence	浮点数	短语的识别置信度。

words

字段名	类型	描述
text	字符串	单词的文本内容。
offsetMilliseconds	整数	单词在短语中的起始偏移，单位为毫秒。
durationMilliseconds	整数	单词的持续时间，单位为毫秒。

返回值示例

{
    "durationMilliseconds": 1920,
    "combinedPhrases": [
        {
            "text": "Hello，我是谁啊？"
        }
    ],
    "phrases": [
        {
            "speaker": null,
            "offsetMilliseconds": 160,
            "durationMilliseconds": 1440,
            "text": "Hello，我是谁啊？",
            "words": [
                {
                    "text": "Hello，",
                    "offsetMilliseconds": 160,
                    "durationMilliseconds": 560
                },
                {
                    "text": "我",
                    "offsetMilliseconds": 720,
                    "durationMilliseconds": 240
                },
                {
                    "text": "是",
                    "offsetMilliseconds": 960,
                    "durationMilliseconds": 160
                },
                {
                    "text": "谁",
                    "offsetMilliseconds": 1120,
                    "durationMilliseconds": 240
                },
                {
                    "text": "啊？",
                    "offsetMilliseconds": 1360,
                    "durationMilliseconds": 240
                }
            ],
            "locale": "zh-CN",
            "confidence": 0.7978613
        }
    ]
}

音频文件支持

大小支持25M以下

WAV
MP3
OPUS/OGG
FLAC
WMA
AAC
WAV 容器中的 ALAW
WAV 容器中的 MULAW
AMR
WebM
M4A
SPEEX