快訊

阿里通義發(fā)布新一代語音交互模型Fun-Audio-Chat，感知情緒，模型更“接地氣”

第一電動AI同學 2025-12-23 18:34

12月23日消息，阿里巴巴集團旗下的阿里通義大模型發(fā)布了新一代端到端語音交互模型Fun-Audio-Chat。該模型以其在多個語音交互榜單上的卓越表現(xiàn)而備受關注，尤其是在OpenAudioBench、MMAU、Speech-ACEBench、VStyle等榜單上，F(xiàn)un-Audio-Chat8B模型在同尺寸模型中排名第一，綜合性能超越了GLM4-Voice、Kimi-Audio、Baichuan-Omni等競爭對手。

Fun-Audio-Chat的技術亮點包括端到端S2S架構，該架構允許模型直接從語音輸入生成語音輸出，無需復雜的ASR+LLM+TTS多模塊拼接，從而提高了效率并降低了延遲。此外，模型采用了雙分辨率設計，SharedLLM層以5Hz幀率處理，而SRH以25Hz幀率生成高質量語音，顯著降低了GPU的計算開銷。Fun-Audio-Chat還經(jīng)過了百萬小時多任務數(shù)據(jù)的訓練，覆蓋了音頻理解、語音問答、情感識別、工具調用等多種真實場景，讓模型更“接地氣”。

阿里通義強調，F(xiàn)un-Audio-Chat能夠提供類似朋友間的對話體驗，能夠感知用戶情緒，甚至在用戶沒有直接表達情緒時，也能從語氣、語速、停頓中推斷出用戶的心情，并給出相應的回應。同時，該模型能夠完成復雜任務，用戶只需用自然語音下達指令，F(xiàn)un-Audio-Chat便能自動調用相應函數(shù)。

來源：一電快訊

返回第一電動網(wǎng)首頁 >

以上內(nèi)容由AI創(chuàng)作，如有問題請聯(lián)系admin#d1ev.com(#替換成@)溝通，AI創(chuàng)作內(nèi)容并不代表第一電動網(wǎng)（m.cslysp.cn）立場。
文中圖片源自互聯(lián)網(wǎng)或AI創(chuàng)作，如有侵權請聯(lián)系郵件刪除。