-
華為昇騰推出高性能保精度量化方案,更好適配DeepSeek
-
萬肇生Guanchazhewanxgun
(文/萬肇生 編輯/張廣凱)
近日,華為公開了昇騰服務器上部署DeepSeek V3/R1推理的最佳實踐,并介紹了一系列創(chuàng)新技術。
其中,華為在降低計算資源需求方面,創(chuàng)新提出了昇騰親和的低比特量化解決方案OptiQuant,最終實現(xiàn)了INT8量化模式與FP8的模型推理精度持平。
由于DeepSeek V3/R1模型是基于英偉達生態(tài)訓練,并推薦使用FP8精度推理,而國產(chǎn)芯片普遍沒有原生支持FP8精度,導致國產(chǎn)芯片對DeepSeek的適配不佳。華為昇騰的上述研究應該就是為了解決這一問題。
通常情況下,在模型推理階段,進行量化(如FP8量化為INT8)可以顯著降低模型對硬件的存儲需求和計算復雜度,但也會造成模型推理精度的損失以及邏輯錯誤等問題。因此如何保持推理精度,是低比特量化滿足不同平臺部署需求時的前提。
據(jù)華為介紹,基于BF16的DeepSeek需要1.3TB的顯存空間,同時導致極大的算力和跨機通信開銷。而校準集的泛化性缺失導致了在很多任務上難以達到與原有模型相近的精度水平,甚至在某些場景下精度下降十分嚴重。同時,還要考慮如何設計昇騰親和的量化算法,以發(fā)揮硬件性能。
針對上述問題,華為提出了OptiQuant量化框架,一種高性能保精度量化方案,設計了層間自動混精、自動混合校準、離群值抑制、可學習的截斷和SSZW參數(shù)量化算法。除了支持業(yè)界主流量化算法功能之外,它還新增支持三個功能:接入自定義量化算法和數(shù)值類型,可以將多種量化算法的自由組合搭配使用;支持業(yè)內(nèi)主流評測數(shù)據(jù)集和用戶自定義的數(shù)據(jù)校準集;支持數(shù)據(jù)并行和流水并行,針對不同大小的大語言模型實現(xiàn)精度驗證性能加速。
OptiQuant框架主要由以下幾個模塊組成:
量化類型和數(shù)值類型:OptiQuant支持了Int2/4/8和FP8/HiFloat8等數(shù)據(jù)類型,支持業(yè)界的Qserve,HQQ,LUT等量化方法,在此基礎上提出了可學習截斷和量化參數(shù)優(yōu)化等算法,進一步減少了量化誤差。
多樣化測試數(shù)據(jù)集和用戶自定義校準集:多樣化測試數(shù)據(jù)集和用戶自定義校準集:OptiQuant支持了判斷題,問答題,代碼題和數(shù)學題等多種測試類別,語種上支持了十種常見語言。此外,OptiQuant支持用戶自定義校準集,提升模型量化過程中的泛化性。
量化權重生成:OptiQuant提出了自適應層間混精算法,并且根據(jù)對應的量化配置生成對應的權重參數(shù),通過去冗余技術減少參數(shù)保存的參數(shù)量;OptiQuant進一步提出了FlexSQ等算法,在數(shù)據(jù)校準過程中,對大模型激活異常值進行了平滑處理,有助于對激活做低比特量化。
最終,基于Atlas 800I A2服務器的精度測試實驗結(jié)果顯示,對于DeepSeek-V3-0324模型,W8A8C16和W4A8C16均采用Per-channel量化,實現(xiàn)了推理精度與FP8-GPU持平。
華為表示,在DeepSeek R1/V3大模型推理場景中,實現(xiàn)了INT8量化模式與FP8的模型推理精度持平,而且進一步發(fā)揮了華為Atlas 800I A2和CloudMatrix384集群推理硬件性能。而相關代碼也將逐步開源。
本文系觀察者網(wǎng)獨家稿件,未經(jīng)授權,不得轉(zhuǎn)載。
- 責任編輯: 萬肇生 
-
“去耐克化”,滔搏想做運動品牌的“MCN”
2025-05-24 16:53 觀網(wǎng)財經(jīng)-消費 -
茶咖日報|霸王茶姬計劃內(nèi)地新增1000家門店
2025-05-23 20:06 觀網(wǎng)財經(jīng)-消費 -
餓了么上線“國補”,下單最高可享2000元補貼
2025-05-23 20:05 觀網(wǎng)財經(jīng)-互聯(lián)網(wǎng) -
加速出海!天貓618淘寶包郵區(qū)將擴容至全球12站
2025-05-23 20:05 觀網(wǎng)財經(jīng)-互聯(lián)網(wǎng) -
-
BOSS直聘一季報:營收19.23億元,凈利潤5.12億元
2025-05-23 20:03 觀網(wǎng)財經(jīng)-互聯(lián)網(wǎng) -
美團外賣“神搶手”日訂單量突破1000萬單
2025-05-23 17:19 觀網(wǎng)財經(jīng)-互聯(lián)網(wǎng) -
“投資中國就是投資未來!”,多位國際品牌高管財報季密集發(fā)聲
2025-05-23 17:06 觀網(wǎng)財經(jīng)-消費 -
特朗普想換鮑威爾?美最高法院出手:美聯(lián)儲是“獨特”實體
2025-05-23 15:00 -
觀網(wǎng)調(diào)查:為什么在招聘平臺找不到工作?寒門子弟更難
2025-05-23 14:24 觀網(wǎng)財經(jīng)-互聯(lián)網(wǎng) -
聯(lián)想楊元慶:堅持中國作為大本營,全球化沒有終結(jié)
2025-05-23 13:20 觀網(wǎng)財經(jīng)-科創(chuàng) -
近40萬臺Windows電腦被感染,微軟起訴
2025-05-23 10:33 觀網(wǎng)財經(jīng)-科創(chuàng) -
黑芝麻智能華山A1000芯片助力東風奕派2025款eπ007智雅領航,型動上市!
2025-05-23 10:15 -
凈利率連年走低的“燕麥第一股”,寄希望于老齡化市場突圍
2025-05-23 10:05 觀網(wǎng)財經(jīng)-消費 -
相比3納米SoC,小米自研4G基帶更值得關注
2025-05-23 09:43 觀網(wǎng)財經(jīng)-科創(chuàng) -
小米發(fā)布玄戒和YU7;三款iPhone被過時;OpenAI計劃推出1億臺AI伴侶
2025-05-23 08:50 觀網(wǎng)財經(jīng)-消費 -
老鋪黃金港股狂飆,潮宏基能否復制“黃金股神話”?
2025-05-22 21:11 觀網(wǎng)財經(jīng)-消費 -
雷軍:小米芯片跑分超300萬,不可能上來就吊打蘋果
2025-05-22 20:51 觀網(wǎng)財經(jīng)-科創(chuàng) -
內(nèi)部人士回應快手強制員工刷短視頻:“并不屬實”
2025-05-22 20:22 觀網(wǎng)財經(jīng)-互聯(lián)網(wǎng) -
傳快手要求員工每天刷1小時短視頻,內(nèi)部人士回應
2025-05-22 19:15 觀網(wǎng)財經(jīng)-互聯(lián)網(wǎng)
相關推薦 -
-
公募改革“觸及靈魂”,中國正破解金融的世界性難題 評論 72特朗普為何突然對歐盟發(fā)難?“嫌對華施壓還不夠” 評論 108“越談越僵!最急著簽的都杠起來了” 評論 97美歐這事兒鬧的,還扯上中國… 評論 66“美國失敗了,不只黃仁勛這么想” 評論 69最新聞 Hot
-
特朗普為何突然對歐盟發(fā)難?“嫌對華施壓還不夠”
-
特朗普自夸:美國黃金時代的第一批西點軍校畢業(yè)生,誕生了
-
俄軍稱又控制三個居民點,烏軍否認
-
用沒用翻譯?俄烏突然吵起來了
-
“越談越僵!最急著簽的都杠起來了”
-
“推倒重來要幾十年!沒有中國我們根本無法生產(chǎn)”
-
美歐這事兒鬧的,還扯上中國…
-
印軍稱擊斃一名巴基斯坦越境者,巴官員稱印方“含糊其辭”
-
特朗普胡謅:有學生2+2都不會,怎么進的哈佛?
-
內(nèi)蒙古一地突降大雪,多匹馬被凍死
-
美議員跑加拿大求“復合”:咱有共同“敵人”,中國啊
-
“美國給中國送大禮,共和黨人這下該解釋麻了”
-
特朗普威脅三星:25%
-
波音被美司法部“豁免”
-
萬斯炒作:美國絕對主導時代結(jié)束了,中俄想各個擊破
-
特朗普AI顧問叫囂:荷蘭繼續(xù)對中國限制出口
-