新浪科技訊 8月12日下午消息,發(fā)布在2025金融AI推理應(yīng)用落地與發(fā)展論壇上,推理吞吐n推華為聯(lián)合中國(guó)銀聯(lián)共同發(fā)布AI推理創(chuàng)新技術(shù)UCM(推理記憶數(shù)據(jù)管理器),創(chuàng)新實(shí)現(xiàn)高吞吐、技術(shù)低時(shí)延的現(xiàn)高推理體驗(yàn)。 在當(dāng)今數(shù)字化時(shí)代,低時(shí)低AI發(fā)展日新月異。延推驗(yàn)降大模型訓(xùn)練的理體理成熱潮尚未消退,AI推理體驗(yàn)卻已悄然成為AI應(yīng)用的發(fā)布關(guān)鍵。中信建投在2025WAIC期間發(fā)布的推理吞吐n推白皮書(shū)指出,AI正從訓(xùn)練向推理的創(chuàng)新結(jié)構(gòu)性轉(zhuǎn)變而快速增長(zhǎng)。在這樣的技術(shù)大背景下,AI推理體驗(yàn)的現(xiàn)高重要性愈發(fā)凸顯。 推理體驗(yàn)直接關(guān)系到用戶(hù)與AI交互時(shí)的低時(shí)低感受,包括回答問(wèn)題的延推驗(yàn)降時(shí)延、答案的準(zhǔn)確度以及復(fù)雜上下文的推理能力等方面。資料顯示,國(guó)外主流模型的單用戶(hù)輸出速度已進(jìn)入200 Tokens/s區(qū)間(時(shí)延5ms),而我國(guó)普遍小于60Tokens/s(時(shí)延50 - 100ms),如何解決推理效率與用戶(hù)體驗(yàn)的難題迫在眉睫。 據(jù)介紹,華為此次發(fā)布的AI推理創(chuàng)新技術(shù)UCM(推理記憶數(shù)據(jù)管理器),作為一款以KV Cache為中心的推理加速套件,其融合了多類(lèi)型緩存加速算法工具,分級(jí)管理推理過(guò)程中產(chǎn)生的KV Cache記憶數(shù)據(jù),擴(kuò)大推理上下文窗口,以實(shí)現(xiàn)高吞吐、低時(shí)延的推理體驗(yàn),降低每Token推理成本。 海量資訊、精準(zhǔn)解讀,盡在新浪財(cái)經(jīng)APP 責(zé)任編輯:郭栩彤 |
超燃!現(xiàn)場(chǎng)直擊陸軍輕武器實(shí)彈射擊考核沖突前后加沙城航拍對(duì)比,網(wǎng)友:這是最殘酷的真相紐約兩名少女疑因“地鐵沖浪”身亡麻生太郎,成為高市早苗的副手廣東一高鐵上陌生男子對(duì)鄰座8歲女孩又親又摸,稱(chēng)“她這么小沒(méi)關(guān)系”,孩子?jì)寢寛?bào)警王毅同韓國(guó)外長(zhǎng)趙顯通電話(huà)假期高速應(yīng)急車(chē)道可不可以“借用通行”?網(wǎng)友吵翻了鄭欽文排名跌至世界第10,昨晚亮相武網(wǎng)開(kāi)幕式,此前因手術(shù)后身體未恢復(fù)到理想狀態(tài)宣布退出比賽“救救我媽媽”!10歲男孩跪地?cái)r車(chē)感動(dòng)全網(wǎng)特朗普:當(dāng)前在俄勒岡州波特蘭發(fā)生的是“叛亂”