
<p id="3583QVPU">始智AI wisemodel.cn开源社区</p><p id="3583QVQ1">始智AI wisemodel.cn社区是源自中国的中立开放的AI开源社区。正在,欢迎加入共同成长。wisemodel社区上线,H800/H20等资源上线,价格实惠,灵活方便,支持在线微调训练模型,及和,并。</p><p id="3583QVQ4">F5-TTS是一种新颖的文本转语音(TTS)系统,它是基于NAR模型的一个新突破,由上海交通大学、剑桥大学和吉利汽车研究院的研究团队推出。</p><p id="3583QVQ5">与众不同之处在于它使用非自回归方法,将流量匹配与扩散变压器 (DiT) 相结合,成功简化了TTS模型传统上涉及的复杂步骤。</p><p id="3583QVQ6">我们知道,大多数语音合成技术(TTS)可以分为两大类:自回归(AR)模型和非自回归(NAR)模型。AR模型在零样本任务上表现出色,但存在推理延迟和暴露偏差的问题。NAR模型推理速度快,但面临文本和语音对齐鲁棒性不足的问题。F5-TTS旨在克服NAR的这一缺陷,同时提升其推理效率并保持系统设计的简洁性。</p><p id="3583QVQ7">目前F5-TTS已经开源,并发布到始智AI wisemodel开源社区,欢迎大家前往使用。</p><p id="3583QVQ8">模型及github地址:</p><p id="3583QVQ9">https://wisemodel.cn/models/SJTU_X-LANCE/F5-TTS_Emilia-ZH-EN</p><p id="3583QVQA">https://wisemodel.cn/codes/SWivid/F5-TTS</p><p id="3583QVQD"><strong>01</strong></p><p id="3583QVQG"><strong>主要架构</strong></p><p id="3583QVQJ">研究结果显示,F5-TTS在合成质量和推理速度方面均优于当前许多 TTS系统。在 LibriSpeech-PC数据集上,该模型在推理过程中取得了2.42的字错误率(WER)和0.15的实时因子(RTF),明显优于之前在处理速度和鲁棒性方面存在缺陷的扩散模型 E2TTS 。</p><p id="3583QVQK">通过简化流程并消除对时长预测、音素对齐和显式文本编码的需求,F5-TTS 提高了对齐和合成质量的鲁棒性。研究人员同时强调了伦理考虑,提出需要建立水印和检测系统以防止模型被滥用。系统的主要亮点在于:</p><p id="3583QVQL"><strong>位置嵌入:</strong></p><p id="3583QVQM">采用正弦位置嵌入和旋转位置嵌入(RoPE)来增强模型对序列位置信息的理解能力,从而提升对齐精度。</p><p id="3583QVQN"><strong>模型输入与处理:</strong></p><p id="3583QVQO">◦ 文本输入:将文本转换为字符序列,并用填充符填充至与输入语音相同长度,简化模型输入。</p><p id="3583QVQP">◦ ConvNeXt处理:通过ConvNeXt块对输入文本进行精炼,对齐语音模态,增强文本表示。</p><p id="3583QV"><strong>模型架构:</strong></p><p id="3583QVQR">◦ 主干网络:采用Diffusion Transformer(DiT),利用流匹配技术实现从文本到语音的高效转换。</p><p id="3583QVQS">◦ 架构特点:避免复杂的持续时间模型、文本编码器和音素对齐等组件,简化系统设计,加快训练速度。</p><p id="3583QVQT"><strong>推理采样策略:</strong></p><p id="3583QVQU">◦ Sway Sampling:非均匀采样策略,通过调整采样流步骤的密度,优化模型性能,减少推理时间。显著增强了生成语音的自然度和清晰度,使模型无需训练即可实现平滑且富有表现力的生成。</p><p id="3583QVQV">◦ ODE求解器:推理阶段使用ODE求解器(Euler/midpoint)处理采样的噪声x0和条件信息,实现从噪声到清晰语音的快速转换。</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1105%2F4c6452daj00smhb2l00f8d200u000jtg00it00ce.jpg&thumbnail=660x&quality=80&type=jpg"/><br/></p><p id="3583QVR3">F5-TTS的训练和推理流程</p><p id="3583QVR6"><strong>02</strong></p><p id="3583QVR9"><strong>使用方法</strong><br/></p><p id="3583QVRB"><strong>自定义本地部署服务</strong></p><p id="3583QVRC">本地部署,需要保证GPU资源(算力)充足及Python环境。</p><p><ul><li id="3583QVU9"></p><p id="3583QVRD">克隆项目</p><p></li></ul></p><pre></pre></p><p><ul><li id="3583QVUA"></p><p id="3583QVRI">安装项目依赖包</p><p></li></ul><br/></p><pre></pre><br/><ul><li id="3583QVUB"></p><p id="3583QVRJ">安装合适的CUDA包(英伟达显卡必须)</p><p></li></ul><br/></p><pre></pre><br/><ul><li id="3583QVUC"></p><p id="3583QVRK">准备数据集并训练、推理、运行项目</p><p></li></ul><br/></p><pre></pre><br/></p><p id="3583QVRL"><strong>wisemodel上提供了直接使用的镜像</strong></p><p id="3583QVRM">点击F5-TTS模型详情页-“训练或微调”按钮,创建一个开发环境,选择“F5-E2-TTS”的镜像,使用1张A5000的配置,然后直接点击下一步:</p><p id="3583QVRN">然后确认一下计费方式,如果是简单体验可以选择按量计费的模型,如果需要使用更长的时间,也可以选择包周或包月的模式,相比于按量有一些折扣。确定计费方式之后,可以直接点击提交订单:</p><p id="3583QVRO">等待1分钟左右,开发环境就启动成功,进入运行中的状态。</p><p id="3583QVRP">通过SSH或notebook登录到开发环境上,然后到/home/F5-TTS/src/f5_tts/infer/目录下面,把 模型服务启动起来python infer_gradio.py,然后再启动 web 服务。</p><p id="3583QVRQ">服务启动成功之后,在开发环境申请一个服务端口和访问域名。</p><p id="3583QVRR">将申请好的域名复制到浏览器里就可以开始在线体验了。</p><p id="3583QVRS"><strong>使用镜像直接创建在线体验</strong></p><p id="3583QVRT">wisemodel社区支持直接通过模型镜像创建在线体验,在 模型 详情面点击“在线部署-部署在线体验”按 钮。</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1105%2F7b2933a9j00smhb2l0019d200u000h3g00it00ap.jpg&thumbnail=660x&quality=80&type=jpg"/><br/></p><p id="3583QVRV">然后选择和确认计费方式,这里选择按量-手动停止的计费方式,大家也可以根据自己的需求选择计费方式。</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1105%2F1e9f47ccj00smhb2m0012d200u000dlg00it008i.jpg&thumbnail=660x&quality=80&type=jpg"/><br/></p><p id="3583QVS1">提交订单之后,应用已经进入启动中的状态,正常情况下大概等待1分钟左右就正常运营,进行在线体验了。</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1105%2Fe4fa2995j00smhb2n0016d200u000f5g00it009h.jpg&thumbnail=660x&quality=80&type=jpg"/><br/></p><p><strong>在线使用</strong></p><p id="3583QVS3">通过官网直接体验其多语言语音生成和速度、情感控制功能。</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1105%2F169e7f5aj00smhb2o0024d200u000jeg00it00c5.jpg&thumbnail=660x&quality=80&type=jpg"/><br/></p><p><ul><li id="3583QVUD"></p><p id="3583QVS5">上传原始音色音频,最好是说话的音频,也可以录制自己的声音上传。</p><p></li><li id="3583QVUE"></p><p id="3583QVS6">然后输入需要转成语音的文本。</p><p></li><li id="3583QVUF"></p><p id="3583QVS7">同步生成,最后就可生成带预期音色的音频了。</p><p></li></ul><br/></p><p id="3583QVSB">----- END -----</p><p id="3583QVSE"><strong>wisemodel相关:</strong></p><p id="3583QVSH"><strong>系统升级:</strong><br/></p><p id="3583QVSL"><strong>系列模型:</strong></p><p id="3583QVSQ"><strong>关于wisemodel更多</strong></p><p id="3583QVST">1</p><p id="3583QVT0"><strong>欢迎持续关注和支持</strong></p><p id="3583QVT3">开源社区建设需要长期坚持和投入,更需要广大用户的积极参与、贡献和维护,欢迎大家加入wisemodel开源社区的志愿者计划和开源共创计划。期待更多开发者将开源成果,包括模型、数据集和代码等发布到 wisemodel.cn 社区,共建中立、开放的AI开源社区生态。欢迎扫码添加wisemodel微信,申请加入wisemodel社群,持续关注wisemodel.cn开源社区动态,</p><p id="3583QVT6">2</p><p id="3583QVT9"><strong>欢迎加盟wisemodel开源社区</strong></p><p id="3583QVTC">始智AI wisemodel社区自2023年9月上线以来,逐渐成为影响力日益扩大的中立开放的AI开源社区,为了加快公司发展,我们长期需要技术、运营等人才加盟,技术侧重在AI infra、后端开发,熟悉K8S、模型训练和推理等技术, 以及熟悉开发者生态运营的成员,欢迎感兴趣的朋友加盟,可以通过添加wisemodel微信,或者将简历投递到邮箱:</p><p id="3583QVTF">3</p><p id="3583QVTI"><strong>欢迎投稿优质内容</strong></p><p id="3583QVTL">欢迎投稿分享人工智能领域相关的优秀研究成果,鼓励高校实验室、大企业研究团队、个人等,在wisemodel平台上分享各类优质内容,可以是AI领域最新论文解读、最新开源成果介绍,也可以是关于AI技术实践、应用和总结等。投稿可以发邮件到,也可以扫码添加wisemodel微信。</p><p id="3583QVTO">4</p><p id="3583QVTR"><strong>关于wisemodel开源社区</strong></p><p id="3583QVTU">始智AI wisemodel.cn开源社区由清华校友总会AI大数据专委会副秘书长刘道全创立,旨在打造和建设中立开放的AI开源创新社区,将打造成“HuggingFace”之外最活跃的AI开源社区,汇聚主要AI开源模型、数据集和代码等,欢迎高校科研院所、大型互联网公司、创新创业企业、广大个人开发者,以及政府部门、学会协会、联盟、基金会等,还有投资机构、科技媒体等,共同参与建设AI开源创新生态。</p><p id="3583QVU1">向上滑动查看</p>
讯享网

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/176096.html