文本生语音

介绍

Text-to-Speech（TTS）模型是一种将书面文本转换为语音的技术，使得计算机能够朗读文本。这种转换技术在许多场景中非常实用，例如导航系统、虚拟助手、有声读物、无障碍技术以及客户服务系统。TTS 技术的发展已经使得生成的语音越来越接近自然语音，通过处理不同的语调、速度和语气，用户体验得到了极大的提升。

最佳实践

以MaaS-ASpeech为例

curl --location 'https://genaiapi.cloudsway.net/v1/ai/HlAKtw/audio/speech' \
--header 'Authorization: Bearer YOUR_API_KEY' \
--header 'Content-Type: application/json' \
--data '{
    "input":"<speak version='\''1.0'\'' xml:lang='\''en-US'\''><voice xml:lang='\''en-US'\'' xml:gender='\''Female'\'' name='\''en-US-AvaMultilingualNeural'\''>my voice is my passport verify me</voice></speak>",
    "response_format":"audio-16khz-128kbitrate-mono-mp3"
}'

以MaaS-OSpeech为例

curl --location 'https://genaiapi.cloudsway.net/v1/ai/FnTIMl/audio/speech' \
--header 'Authorization: Bearer YOUR_API_KEY' \
--header 'Content-Type: application/json' \
--data '{
    "input":"hi,what is your name?",
    "voice":"alloy",
    "speed":1.0,
    "response_format":"mp3"
}'

以MaaS-nar为例

curl --request POST \
  --url 'https://genaiapi.cloudsway.net/v1/ai/kXfKrPc/tts-n/text-to-speech/mp3?voice=Beatrice&voice-speed=fast&voice-volume=standard' \
  --header 'Accept: application/octet-stream' \
  --header 'Authorization: Bearer YOUR_API_KEY' \
  --header 'Content-Type: text/plain' \
  --data hello

以MaaS-Ele为例

curl --request POST \
  --url https://genaiapi.cloudsway.net/v1/ai/ZMfNI/tts-e/text-to-speech/pqHfZKP75CvOlQylNhV4 \
  --header 'Authorization: Bearer YOUR_API_KEY' \
  --header 'Content-Type: application/json' \
  --data '{
    "text": "你好",
    "voice_settings": {
        "stability": 0,
        "similarity_boost": 1.0,
        "use_speaker_boost": false
    }
}'

输出会生成一个mp3格式的文件