今日,華為數(shù)據(jù)存儲(chǔ)與中科弘云聯(lián)合發(fā)布了AI推理加速解決方案,旨在優(yōu)化長(zhǎng)序列推理體驗(yàn)。該方案以華為OceanStorA系列存儲(chǔ)為基礎(chǔ),結(jié)合中科弘云HyperCN平臺(tái),通過(guò)深度融合華為UCM推理記憶數(shù)據(jù)管理技術(shù)及HyperCN平臺(tái)能力,實(shí)現(xiàn)了智能算力的高效輸送至業(yè)務(wù)一線。方案具備異構(gòu)管理、算力調(diào)度、推理加速等核心優(yōu)勢(shì),支持多元AI算力和主流框架,實(shí)現(xiàn)資源利用率最大化,并顯著降低首Token時(shí)延,提升長(zhǎng)序列推理吞吐與體驗(yàn)。
具體而言,該方案通過(guò)KVCache多級(jí)緩存管理、秒級(jí)算力調(diào)度、分鐘級(jí)推理大模型部署及全流程AI工具鏈,覆蓋數(shù)據(jù)管理標(biāo)注、算法開發(fā)、大小模型訓(xùn)練推理、智能體開發(fā)等全流程,支持傳統(tǒng)機(jī)器學(xué)習(xí)與深度學(xué)習(xí)開發(fā),實(shí)現(xiàn)AI資產(chǎn)的統(tǒng)一建設(shè)與集中管理。在智能問(wèn)答的典型推理場(chǎng)景中,首Token時(shí)延降低57.5%,長(zhǎng)文檔推理場(chǎng)景中,結(jié)合GSA稀疏加速算法,當(dāng)序列長(zhǎng)度為39K時(shí),并發(fā)能力提升86%,推理吞吐提升36%。
目前,該聯(lián)合方案已在能源電力、智能制造、國(guó)家實(shí)驗(yàn)室等關(guān)鍵行業(yè)啟動(dòng)試點(diǎn)應(yīng)用,展現(xiàn)了其在實(shí)際業(yè)務(wù)中的高效性和實(shí)用性。

來(lái)源:一電快訊
返回第一電動(dòng)網(wǎng)首頁(yè) >
以上內(nèi)容由AI創(chuàng)作,如有問(wèn)題請(qǐng)聯(lián)系admin#d1ev.com(#替換成@)溝通,AI創(chuàng)作內(nèi)容并不代表第一電動(dòng)網(wǎng)(m.cslysp.cn)立場(chǎng)。
文中圖片源自互聯(lián)網(wǎng)或AI創(chuàng)作,如有侵權(quán)請(qǐng)聯(lián)系郵件刪除。