12月23日消息,阿里巴巴集團旗下的阿里通義大模型發(fā)布了新一代端到端語音交互模型Fun-Audio-Chat。該模型以其在多個語音交互榜單上的卓越表現(xiàn)而備受關注,尤其是在OpenAudioBench、MMAU、Speech-ACEBench、VStyle等榜單上,F(xiàn)un-Audio-Chat8B模型在同尺寸模型中排名第一,綜合性能超越了GLM4-Voice、Kimi-Audio、Baichuan-Omni等競爭對手。
Fun-Audio-Chat的技術亮點包括端到端S2S架構,該架構允許模型直接從語音輸入生成語音輸出,無需復雜的ASR+LLM+TTS多模塊拼接,從而提高了效率并降低了延遲。此外,模型采用了雙分辨率設計,SharedLLM層以5Hz幀率處理,而SRH以25Hz幀率生成高質量語音,顯著降低了GPU的計算開銷。Fun-Audio-Chat還經(jīng)過了百萬小時多任務數(shù)據(jù)的訓練,覆蓋了音頻理解、語音問答、情感識別、工具調用等多種真實場景,讓模型更“接地氣”。
阿里通義強調,F(xiàn)un-Audio-Chat能夠提供類似朋友間的對話體驗,能夠感知用戶情緒,甚至在用戶沒有直接表達情緒時,也能從語氣、語速、停頓中推斷出用戶的心情,并給出相應的回應。同時,該模型能夠完成復雜任務,用戶只需用自然語音下達指令,F(xiàn)un-Audio-Chat便能自動調用相應函數(shù)。



來源:一電快訊
返回第一電動網(wǎng)首頁 >
以上內(nèi)容由AI創(chuàng)作,如有問題請聯(lián)系admin#d1ev.com(#替換成@)溝通,AI創(chuàng)作內(nèi)容并不代表第一電動網(wǎng)(m.cslysp.cn)立場。
文中圖片源自互聯(lián)網(wǎng)或AI創(chuàng)作,如有侵權請聯(lián)系郵件刪除。