Bitcoin86.com

首个开源MoE语音合成模型ZONOS2发布,支持超逼真零样本声音克隆

币界网消息,ZONOS2是首个开源的稀疏混合专家(MoE)架构语音合成模型,拥有80亿总参数,推理时仅需激活9亿参数。该模型主打高保真度与零样本声音克隆,无需微调即可快速提取说话人的声音特征并生成逼真的音频。ZONOS2直接预测音频编解码器(DAC)离散标记,以输出录音室级别的44.1 kHz音频。其训练数据集从初代模型的20万小时扩展至600多万小时,约合707年的音频长度。ZONOS2基于Apache 2.0协议开放权重,并提供GitHub推理代码,同时在搭载AMD硬件的Zyphra云平台提供限时免费在线试用。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。