1月1日,據(jù)The Information報(bào)道,OpenAI正在加強(qiáng)其音頻人工智能能力,為未來推出一款以語音為核心的個(gè)人AI設(shè)備做準(zhǔn)備。這款設(shè)備將以聽覺交互為主要形式,不依賴屏幕。目前,ChatGPT的語音功能與文本回答使用的模型不同。OpenAI內(nèi)部研究人員認(rèn)為,現(xiàn)有音頻模型在準(zhǔn)確性和響應(yīng)速度上明顯落后,因此公司在過去兩個(gè)月內(nèi)集中力量攻克音頻模型短板。這一調(diào)整旨在打造一款可通過自然語音指令操作的消費(fèi)級(jí)設(shè)備。首款產(chǎn)品預(yù)計(jì)至少還需要一年時(shí)間才能面世。
隨著新架構(gòu)的引入,音頻模型已能生成更自然、更富情感的語音回應(yīng),并具備與人類同時(shí)發(fā)聲、應(yīng)對(duì)打斷的能力。OpenAI計(jì)劃在2026年第一季度正式發(fā)布該模型。在硬件形態(tài)上,OpenAI與
谷歌、亞馬遜、Meta和蘋果的判斷相似,認(rèn)為現(xiàn)有主流設(shè)備并非為未來的AI交互而生。OpenAI團(tuán)隊(duì)希望用戶通過"說話"而非"看屏幕"與設(shè)備互動(dòng),認(rèn)為語音才是最貼近人類交流本能的方式。與OpenAI合作推進(jìn)硬件項(xiàng)目的喬尼?艾維也強(qiáng)調(diào),無屏幕設(shè)計(jì)不僅更自然,還有助于避免用戶沉迷。他認(rèn)為,新一代設(shè)備應(yīng)當(dāng)糾正以往消費(fèi)電子產(chǎn)品帶來的負(fù)面影響,并為此承擔(dān)責(zé)任。
不過,OpenAI目前仍面臨現(xiàn)實(shí)挑戰(zhàn)。內(nèi)部人士指出,不少ChatGPT用戶并未習(xí)慣使用語音功能,這種情況不僅因?yàn)橐纛l模型效果不彰,也與功能認(rèn)知不足有關(guān)。在推出音頻優(yōu)先的AI設(shè)備之前,OpenAI必須先改變用戶的使用習(xí)慣。在組織層面,OpenAI已組建專門團(tuán)隊(duì)推進(jìn)音頻AI戰(zhàn)略。來自Character.AI的語音研究員昆丹?庫馬爾負(fù)責(zé)整體方向,本?紐豪斯正在重構(gòu)面向音頻的底層架構(gòu),多模態(tài)ChatGPT的產(chǎn)品經(jīng)理杰基?香農(nóng)也參與其中。OpenAI并不打算只推出一款設(shè)備,而是規(guī)劃了一條產(chǎn)品線,包括智能眼鏡和無屏幕智能音箱。公司內(nèi)部的設(shè)想是,這類設(shè)備將以"伴隨式助手"的形態(tài)存在,主動(dòng)理解環(huán)境和用戶需求,并在獲得授權(quán)的情況下,通過音頻和視頻持續(xù)提供幫助。為支撐這一長(zhǎng)期布局,OpenAI已在2025年初斥資近65億美元收購喬尼?艾維聯(lián)合創(chuàng)辦的io,并同步推進(jìn)供應(yīng)鏈、工業(yè)設(shè)計(jì)與模型研發(fā)等多條工作線。

來源:一電快訊
返回第一電動(dòng)網(wǎng)首頁 >
以上內(nèi)容由AI創(chuàng)作,如有問題請(qǐng)聯(lián)系admin#d1ev.com(#替換成@)溝通,AI創(chuàng)作內(nèi)容并不代表第一電動(dòng)網(wǎng)(m.cslysp.cn)立場(chǎng)。
文中圖片源自互聯(lián)網(wǎng)或AI創(chuàng)作,如有侵權(quán)請(qǐng)聯(lián)系郵件刪除。