02/03/2026 14:16
【AI】阿里發布兩款語音新模型,可定制角色及模擬背景音
3月2日,阿里發布兩款語音新模型,基於參考音頻的聲音克隆模型Fun-CosyVoice3.5和無參考音頻的音色設計模型Fun-AudioGen-VD。兩款模型均引入「指令遵循」能力,自由控制聲音的情感、語速、場景等,可用freestyle(自由風格模式)定制角色,適用於有聲書、遊戲、客服、播客、教育、直播等多個場景。即日起,用戶可在阿里雲百煉調用這兩款最新模型。
據了解,兩款模型在同尺寸模型的基準評測中斬獲多項SOTA。在Seed-TTS基準測試的中文「困難案例」指標中,Fun-CosyVoice3.5表現搶眼,詞錯誤率(Word Error Rate, WER)和說話人相似度(Speaker Similarity, SSIM),均為最佳。同時,因為優化了「困難案例」的發音,生僻字句錯率由15.2%降低到5.3%。
官方介紹稱,兩款模型均支持通過自然語言指令控制語音生成,但應用方向不同:Fun-CosyVoice3.5支持自由風格模式指令控制,Fun-AudioGen-VD則專注「從無到有」的音色設計,其不僅能根據描述定制音色和情感,還能同步模擬複雜的聽覺環境。此外,Fun-CosyVoice3.5所用的tokenizer幀率減半,提高了訓練效率,並且首包延遲降低35%,大幅提升了實時交互體驗。
《經濟通通訊社2日專訊》
據了解,兩款模型在同尺寸模型的基準評測中斬獲多項SOTA。在Seed-TTS基準測試的中文「困難案例」指標中,Fun-CosyVoice3.5表現搶眼,詞錯誤率(Word Error Rate, WER)和說話人相似度(Speaker Similarity, SSIM),均為最佳。同時,因為優化了「困難案例」的發音,生僻字句錯率由15.2%降低到5.3%。
官方介紹稱,兩款模型均支持通過自然語言指令控制語音生成,但應用方向不同:Fun-CosyVoice3.5支持自由風格模式指令控制,Fun-AudioGen-VD則專注「從無到有」的音色設計,其不僅能根據描述定制音色和情感,還能同步模擬複雜的聽覺環境。此外,Fun-CosyVoice3.5所用的tokenizer幀率減半,提高了訓練效率,並且首包延遲降低35%,大幅提升了實時交互體驗。
《經濟通通訊社2日專訊》
【說說心理話】賈思樂圈中朋友眾多,Do姐在他面前也放下盔甲變成小綿羊!做人座右銘:永遠保持善良► 即睇
-
上一篇
【AI】字節PICO預告發布OS 6操作系統,年內推全新XR產品Project Swan 02/03/2026 15:17
-
下一篇
【AI】千問AI眼鏡今起「0元預約」,3月8日中國市場現貨發售 02/03/2026 10:35
-
【AI】豆包、千問成全球第二、三大AI應用,千問月活躍用戶數飆552% 03/03/2026 11:43
-
【AI】美團旗下光年之外首款AI瀏覽器Tabbit AI進入公測 03/03/2026 10:29
-
【AI】美國擬出台英偉達H200限購令,每個中國客戶最多買7.5萬顆芯片 03/03/2026 08:54
-
【AI】榮耀首款機器人及Robot Phone概念機亮相MWC 2026 02/03/2026 10:22
-
【AI】松延動力完成近10億元B輪融資,寧德時代系晨道資本領投 02/03/2026 10:08