跳转至

文本生语音模型

Text-to-Speech(TTS)模型是一种将书面文字转换为语音的技术,使计算机可以“读出”文本。它通过将输入的文本解析成语音单元,然后生成自然听起来的语音。文本生语音模型常用于导航系统、虚拟助手和有声读物等应用场景。

以下模型都已支持购买:

  • MaaS_DB_Speech
  • MaaS-Ele
  • MaaS ASpeech
  • MaaS OSpeech
  • MaaS_T2A_V2_01HD
  • MaaS_T2A_V2_02HD
  • MaaS_T2A_V2_01Turbo

MaaS_DB_Speech

MaaS_DB_Speech 语音合成大模型,依托新一代大模型强大能力,能够深度剖析上下文,精准智能预测文本蕴含的情绪、语调等关键信息,进而生成超自然、高保真且极具个性化的语音,全方位满足不同用户多元化的个性需求。相较于传统语音合成技术,其在自然度、音质、韵律、气口、情感以及语气词表达等诸多方面表现卓越,输出的语音与真人发声高度相似。

  • 自然度极高仿若真人发声

模型运用精密的算法,细腻模拟人类发声的微妙细节。语音衔接顺滑流畅,语速缓急与节奏把控恰到好处,与真人发声高度契合,让听众仿若置身真实对话场景,沟通体验自然流畅。

  • 丰富音色契合多样需求

根据用户所处的不同场景,如正式的朗读、日常的对话、引人入胜的旁白等,模型能迅速匹配并生成适配的语音风格。无论是洋溢活力的活泼俏皮风,还是沉稳大气的庄重风格,皆能精准呈现,满足多样化场景需求。

  • 适应性广泛兼容各类文本

无论面对新闻稿件、故事文案还是专业论文等各类文本,模型都能迅速适应,输出高质量且符合语境的语音。

MaaS-Ele

MaaS-Ele 是一个基于 AI 的文本转语音和语音克隆的模型,提供多种功能和服务

  1. 高质量语音生成:MaaS-Ele 的 AI 语音生成器能够以极高的保真度渲染人类语调和语气,根据上下文调整语音的传递。
  2. 多语言支持:支持32种语言和超过100种语音,适用于游戏、视频、播客等多种内容的语音生成。
  3. 语音克隆:提供语音克隆功能,用户可以创建独特的语音,并进行自定义设置。
  4. 多样化应用:适用于文本转语音、语音到语音、配音和音效生成等多种应用场景。
  5. 高级功能:相比其他文本转语音服务,MaaS-Ele提供更丰富的功能,包括电话格式支持和多语言生成。
  6. 项目支持:对于需要生成更长内容的用户,推荐使用项目功能来处理超长文本内容。
  7. 生成限制:每次生成最多可处理5,000个字符。

MaaS-Ele的文本转语音服务支持以下音频输出格式:

  • MP3
  • WAV

默认情况下,网站上生成的音频是 MP3 格式,但也可以选择其他格式,如 PCM 和 μ-law 格式。

MaaS ASpeech

MaaS-ASpeech使用语音生成技术生成高质量、自然的语音输出。该模型利用了最先进的机器学习和深度学习技术来实现高品质的语音合成效果,经过大量的语音和文本数据训练,以便在语音自然度、清晰度和情感表达等方面达到高标准。

  1. 高自然度的语音输出:利用深度学习技术,生成的语音更加接近人类自然发音,具备流畅的语调和情感表达。

  2. 多语言和多语种支持:支持多种语言和方言,能够为全球用户提供本地化的语音体验

  3. 快速响应和低延迟:采用优化的算法和高性能云计算资源,能够提供快速响应的语音生成体验,即使在大规模使用情况下也能保持低延迟。

  4. 高可用性和可扩展性:基于云平台,具有高度的可靠性和可扩展性,适合多种应用场景,从小型应用到大型企业级应用。

MaaS OSpeech

MaaS OSpeech通过深度学习和神经网络技术对输入的文本进行处理,然后生成高品质、自然的语音输出。该模型经过大量的语音数据训练,能够理解并合成各种语调和情感的语音。

  1. 自然逼真的语音输出:使用最先进的深度学习技术,生成的语音比传统TTS系统更加自然、流畅,具有人类发音的情感和语调变化。

  2. 多语言、多口音支持:支持多种语言和口音,适应不同地区和文化的用户需求,实现本地化的语音合成。

  3. 实时响应:借助云平台强大的计算能力,MaaS OSpeech模型能够快速处理和生成语音,满足实时交互应用的需求。

MaaS_T2A系列

MaaS_T2A系列支持基于文本到语音的同步生成,单次文本传输最大10000字符。接口本身为无状态接口,即单次调用时,模型所接收到的信息量仅为接口传入内容,不涉及业务逻辑,同时模型也不存储您传入的数据。

该接口支持以下功能:

  1. 支持100+系统音色、复刻音色自主选择;

  2. 支持音量、语调、语速、输出格式调整;

  3. 支持按比例混音功能;

  4. 支持固定间隔时间控制;

  5. 支持多种音频规格、格式,包括:mp3,pcm,flac,wav。注:wav仅在非流式输出下支持;

  6. 支持流式输出。该接口的适用场景:短句生成、语音聊天、在线社交等

该系列当前支持三种模型

模型 特性
MaaS_T2A_V2_01HD 拥有超高的复刻相似度,音质表现突出
MaaS_T2A_V2_02HD 拥有更出色的韵律、稳定性和复刻相似度,音质表现突出
MaaS_T2A_V2_01Turbo 拥有更出色的韵律和稳定性,小语种能力加强,性能表现出色