2026年4月15日,谷歌推出Gemini 3.1 Flash TTS——其最新的文本转语音模型。这款模型在可控性、表现力和音质上均有显著提升,能帮助开发者、企业与用户打造下一代AI语音应用。即日起,该模型已在Gemini API、Google AI Studio(开发者预览版)、Vertex AI(企业预览版),以及面向Workspace用户的Google Vids平台同步上线。
在Artificial Analysis TTS排行榜中,Gemini 3.1 Flash TTS以1211 Elo分的成绩跻身“最具吸引力象限”。它支持多扬声器对话场景,覆盖70余种语言,还能通过自然语言指令实现细粒度的创意控制。新加入的音频标签功能,允许用户嵌入自然语言命令来调整语音的风格、节奏与表达效果。
开发者可在Google AI Studio中配置场景方向、扬声器特性,并无缝导出相关参数;早期测试者对模型的可控性和表现力给出了积极反馈。此外,所有生成的音频都带有SynthID水印,可有效检测AI生成内容,助力防范虚假信息传播。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/267729.html