-
昇騰云CloudMatrix 384超節(jié)點,六大科技創(chuàng)新詳解
最后更新: 2025-05-17 10:14:045月16日,華為云AI峰會在北京召開,華為云副總裁黃瑾發(fā)表主題演講,介紹了更多CloudMatrix 384 超節(jié)點技術優(yōu)勢與細節(jié)。
他指出,隨著大模型訓練和推理對算力需求的爆炸式增長,傳統(tǒng)計算架構已難以支撐AI技術的代際躍遷,超節(jié)點架構的誕生不僅是技術的突破,更是以工程化創(chuàng)新開辟AI產業(yè)的新路徑。華為云CloudMatrix 384超節(jié)點具備MoE親和、以網(wǎng)強算、以存強算、長穩(wěn)可靠、朝推夜訓、即開即用六大領先技術優(yōu)勢,以系統(tǒng)架構創(chuàng)新重新定義新一代AI基礎設施。
華為云副總裁黃瑾
重新定義AI基礎設施架構,開辟算力新紀元
當前,大模型訓練經(jīng)歷了從早期小模型在單卡訓練、小參數(shù)大模型在單機訓練,到現(xiàn)在MoE、長序列、多模態(tài)大模型都在AI集群上訓練的演進過程。AI算力的瓶頸,從單卡算力的瓶頸到單機內總線帶寬的瓶頸,再到現(xiàn)在集群間通信帶寬的瓶頸,需求增長了1萬倍。
然而過去的8年里,單卡硬件的算力增長了40倍,但是節(jié)點內的總線帶寬只增長了9倍,跨節(jié)點的網(wǎng)絡帶寬只增長了4倍,這使得集群網(wǎng)絡通信成為當前大模型訓練和推理的最大挑戰(zhàn)。
黃瑾表示,面對這些挑戰(zhàn),華為云創(chuàng)新性的推出了采用全對等互聯(lián)架構的CloudMatrix 384超節(jié)點。這項技術創(chuàng)新跳出單點技術限制走向系統(tǒng)性、工程性的創(chuàng)新算力架構,直面通信效率瓶頸、內存墻制約、可靠性短板三大技術挑戰(zhàn)。通過新型高速互聯(lián)總線實現(xiàn)384 張卡互聯(lián)成為一個超級云服務器,最高提供300Pflops的算力規(guī)模,比業(yè)界同類產品領先67%。
解碼六大優(yōu)勢,CloudMatrix 384超節(jié)點重構AI算力架構
目前,基于CloudMatrix的超節(jié)點集群已經(jīng)在蕪湖、貴安、內蒙規(guī)模上線,黃瑾進一步深入解讀了六大技術創(chuàng)新點:
MoE親和架構,從“小作坊”到“超級工廠”。在傳統(tǒng)架構下,MoE模型訓練容易因通信延遲導致算力浪費,而CloudMatrix 384超節(jié)點的分布式推理平臺可以說是專為MoE大模型而生。黃瑾指出,對比一卡多專家的“小作坊模式”,超節(jié)點更像“大工廠模式”,通過高速互聯(lián)總線,能夠實現(xiàn)一卡一專家高效分布式推理,單卡的MoE計算和通信效率都大幅提升。這也是為什么有幾百個政務、零售、醫(yī)療、保險、制造、礦山、旅游等各行各業(yè)的客戶,基于華為云昇騰AI云服務部署DeepSeek模型的創(chuàng)新應用,例如在智能助手、智能客服、互聯(lián)網(wǎng)搜索、內容創(chuàng)作等各種場景落地。
以網(wǎng)強算,雙層網(wǎng)絡破解“數(shù)據(jù)堵車”。當AI算力走向規(guī)?;渴穑瑔吸c的芯片性能不再是制約算力發(fā)展的唯一變量,如何由點及面地激活算力矩陣的共振效應,也是破解AI時代算力命題的關鍵一步。而釋放聯(lián)接力也正是超節(jié)點最大的創(chuàng)新突破之一,黃瑾介紹,傳統(tǒng)網(wǎng)絡像擁堵的城市道路,CloudMatrix 384則構建了AI專屬高架橋,通過MatrixLink服務將單層網(wǎng)絡升級為兩層高速網(wǎng)絡,一層是超節(jié)點內部的ScaleUp總線網(wǎng)絡,確保超節(jié)點內384卡全對等高速無阻塞互聯(lián),卡間超大帶寬2.8T,納秒級時延;另一層是跨超節(jié)點間的ScaleOut網(wǎng)絡,可支持微秒級時延,資源彈性擴展;同時,基于全局拓撲感知的智能調度算法,保障客戶任務長穩(wěn)運行。
以存強算,彈性內存改寫“算存綁定”。 華為云首創(chuàng)了EMS彈性內存存儲,打破傳統(tǒng)GPU算力與顯存綁定的關鍵障礙,通過內存池化技術,實現(xiàn)顯存和算力解綁。一方面,用EMS替代NPU中的顯存,可使得首Token時延降低,最高降幅可達 80%;另一方面,當NPU的顯存不足時,EMS獨立擴容,不必再通過堆NPU以獲得更多內存。同時,EMS還支持算力卸載,這也使得系統(tǒng)吞吐量提升,有的場景達100%的提升??傊?,這一技術創(chuàng)新大幅提升了資源利用率、性能和吞吐量。
長穩(wěn)可靠,故障自愈的“AI醫(yī)生”。隨著模型訓練需求的不斷接入,大集群的運維難度大、復雜性高的問題日益凸顯。對此,華為云開發(fā)了昇騰云腦運維“1-3-10”標準,即 1 分鐘感知、3分鐘定界、10 分鐘內恢復。通過5層壓測、靜默故障感知技術,昇騰云腦可將硬件故障感知率從40%提升至90%。同時,覆蓋計算、存儲、網(wǎng)絡、軟件四大種類故障模式庫也打通了全棧故障場景,這一全棧故障知識庫能夠覆蓋95%常見問題以實現(xiàn)故障快速定界;在恢復機制上,3層快恢技術、快速建鏈技術、圖編譯緩存等技術能夠實現(xiàn)萬卡故障快速恢復。
朝推夜訓,算力資源“錯峰用電”。在大模型訓練中,提升算力利用率,避免算力閑置也是企業(yè)關心的重點之一。CloudMatrix 384超節(jié)點通過“訓推共池”“靈活調度”兩大關鍵技術實現(xiàn)朝推夜訓,白天進行模型推理,晚上閑時進行模型訓練,算力資源利用率可提升30%以上。
即開即用,“算力水電”普惠模式。為助力客戶更好地專注業(yè)務模型開發(fā),華為云已經(jīng)在全國三大樞紐數(shù)據(jù)中心——烏蘭察布、貴安和蕪湖完成了超節(jié)點規(guī)模布局,支持百TB級的帶寬互聯(lián),10毫秒時延圈覆蓋全國19個城市群,讓客戶能夠第一時間享受到即開即用的AI算力資源。同時,華為云擁有專業(yè)的超節(jié)點運維團隊,在為客戶免去繁瑣的管理和維護的同時,保障資源的穩(wěn)定運行。
做好智能世界云底座和使能器,加速行業(yè)智能躍遷
如今AI已經(jīng)成為最有影響力的通用技術,如何將技術價值轉化為應用成果,成為千行百業(yè)面臨的核心課題。華為云超節(jié)點創(chuàng)新系統(tǒng)架構的背后,是華為云堅持“昇騰云服務支持百模千態(tài),盤古大模型重塑千行萬業(yè)”的戰(zhàn)略。
黃瑾強調,一直以來華為云持續(xù)推動昇騰AI云服務全面升級,通過打磨昇騰云的訓練、推理的性能、可靠性和性價比,為中國乃至全球客戶提供好用、易用的AI算力云服務?,F(xiàn)已全面適配了DeepSeek在內的160多個大模型,以云服務的方式,協(xié)助客戶進行模型的開發(fā),訓練,托管和應用。昇騰AI云服務上線以來,面向政府、金融、零售、互聯(lián)網(wǎng)、交通、制造等行業(yè)已經(jīng)服務六百多家創(chuàng)新先鋒企業(yè),加速行業(yè)智能化應用的快速落地。
在充滿突破和創(chuàng)新的AI發(fā)展過程中,每一個階段都會產生大量的新技術、新模式,企業(yè)唯有抓住AI時代機遇,才能搶占發(fā)展先機。黃瑾表示,面向智能世界,華為云致力于做好行業(yè)數(shù)字化的“云底座”和“使能器”,堅定打造AI算力底座,以安全、穩(wěn)定、高質量、持續(xù)創(chuàng)新的AI云服務,賦能千行萬業(yè)應用創(chuàng)新,攜手伙伴、客戶加速行業(yè)智能躍遷。
本文系觀察者網(wǎng)獨家稿件,未經(jīng)授權,不得轉載。
- 責任編輯: 楊依婷 
-
全球關稅戰(zhàn)硝煙滾滾,為何義烏“云淡風輕”?
2025-05-17 09:17 觀網(wǎng)財經(jīng)-海外 -
HDMI收稅20年,移動“超高清時代”能否有中國標準?
2025-05-16 22:09 觀察者頭條 -
多個“首次”!上市公司重大資產重組新規(guī)落地
2025-05-16 21:25 -
牽手Rokid,高德推出全球首個導航智能體應用
2025-05-16 20:20 -
茶咖日報|淘寶閃購加碼“奶茶免單”;星巴克或出售部分在華業(yè)務
2025-05-16 19:56 觀網(wǎng)財經(jīng)-消費 -
-
折扣力度史上最大,天貓618今晚正式開啟
2025-05-16 18:01 觀網(wǎng)財經(jīng)-互聯(lián)網(wǎng) -
騰訊混元上新:話沒說完,圖就生成了
2025-05-16 17:50 觀網(wǎng)財經(jīng)-科創(chuàng) -
被曝雞腿大量生蛆,食安問題怎么又發(fā)生在正新雞排?
2025-05-16 17:31 觀網(wǎng)財經(jīng)-消費 -
國家市場監(jiān)管總局局長羅文:自覺抵制低價傾銷、互黑互踩
2025-05-16 16:50 觀網(wǎng)財經(jīng)-互聯(lián)網(wǎng) -
遭歐盟指控廣告違規(guī),TikTok或面臨天價罰款
2025-05-16 16:22 觀網(wǎng)財經(jīng)-互聯(lián)網(wǎng) -
“卷王”階躍星辰又卷出新花樣,但姜大昕的理想道阻且長
2025-05-16 15:15 觀網(wǎng)財經(jīng)-科創(chuàng) -
商務部:著力提高退稅商店覆蓋面,擴大入境消費
2025-05-16 14:42 -
具身創(chuàng)企魔法原子再獲數(shù)億融資,預期年內訂單破千臺
2025-05-16 14:00 觀網(wǎng)財經(jīng)-科創(chuàng) -
歷經(jīng)五次IPO的綠茶餐廳終于上市,但市場并不買賬
2025-05-16 12:50 觀網(wǎng)財經(jīng)-消費 -
-
2025中國社會責任投資高峰論壇:金融的社會價值如何體現(xiàn)?
2025-05-15 22:39 金融觀察 -
雷軍:小米自研手機SoC芯片“玄戒O1”,將于5月下旬發(fā)布
2025-05-15 20:57 觀網(wǎng)財經(jīng)-科創(chuàng) -
阿里發(fā)布Q4財報,淘天全面超預期
2025-05-15 20:03 觀網(wǎng)財經(jīng)-互聯(lián)網(wǎng) -
網(wǎng)易Q1凈收入288億元同比增加7.4%,新游戲表現(xiàn)亮眼
2025-05-15 18:35 大公司
相關推薦 -
俄烏剛談完,這五人又湊一塊急call特朗普 評論 88美企“哭訴”:中方審批嚴格,我們沒庫存了 評論 238HDMI收稅20年,移動“超高清時代”能否有中國標準? 評論 161美企急電:快取消越南、印尼訂單,轉回中國 評論 133“無論承認與否,硅谷精英變成‘中國必勝論’擁躉” 評論 93最新聞 Hot