阿里發布兩款語音新模型，可定制角色及模擬背景音 - etnet 經濟通 Mobile|香港新聞財經資訊和生活平台

02/03/2026 14:16

【ＡＩ】阿里發布兩款語音新模型，可定制角色及模擬背景音

　　3月2日，阿里發布兩款語音新模型，基於參考音頻的聲音克隆模型Fun-CosyVoice3.5和無參考音頻的音色設計模型Fun-AudioGen-VD。兩款模型均引入「指令遵循」能力，自由控制聲音的情感、語速、場景等，可用freestyle（自由風格模式）定制角色，適用於有聲書、遊戲、客服、播客、教育、直播等多個場景。即日起，用戶可在阿里雲百煉調用這兩款最新模型。

　　據了解，兩款模型在同尺寸模型的基準評測中斬獲多項SOTA。在Seed-TTS基準測試的中文「困難案例」指標中，Fun-CosyVoice3.5表現搶眼，詞錯誤率(Word Error Rate, WER)和說話人相似度(Speaker Similarity, SSIM)，均為最佳。同時，因為優化了「困難案例」的發音，生僻字句錯率由15.2%降低到5.3%。

　　官方介紹稱，兩款模型均支持通過自然語言指令控制語音生成，但應用方向不同：Fun-CosyVoice3.5支持自由風格模式指令控制，Fun-AudioGen-VD則專注「從無到有」的音色設計，其不僅能根據描述定制音色和情感，還能同步模擬複雜的聽覺環境。此外，Fun-CosyVoice3.5所用的tokenizer幀率減半，提高了訓練效率，並且首包延遲降低35%，大幅提升了實時交互體驗。
《經濟通通訊社2日專訊》

【說說心理話】賈思樂圈中朋友眾多，Do姐在他面前也放下盔甲變成小綿羊！做人座右銘：永遠保持善良► 即睇

【ＡＩ】阿里發布兩款語音新模型，可定制角色及模擬背景音

【ＡＩ】字節PICO預告發布OS 6操作系統，年內推全新XR產品Project Swan 02/03/2026 15:17

【ＡＩ】千問AI眼鏡今起「0元預約」，3月8日中國市場現貨發售 02/03/2026 10:35

其他ＡＩ

【ＡＩ】豆包、千問成全球第二、三大AI應用，千問月活躍用戶數飆552% 03/03/2026 11:43

【ＡＩ】美團旗下光年之外首款AI瀏覽器Tabbit AI進入公測 03/03/2026 10:29

【ＡＩ】美國擬出台英偉達H200限購令，每個中國客戶最多買7.5萬顆芯片 03/03/2026 08:54

【ＡＩ】榮耀首款機器人及Robot Phone概念機亮相MWC 2026 02/03/2026 10:22

【ＡＩ】松延動力完成近10億元B輪融資，寧德時代系晨道資本領投 02/03/2026 10:08