近日,移動云成功部署基于國產(chǎn)算力的 “大規(guī)模專家并行”推理集群,在移動云MaaS平臺,COCA推理系統(tǒng)上線,實現(xiàn)DeepSeek MoE大模型跨節(jié)點高效集群推理。該方案突破性實現(xiàn)單卡吞吐提升3倍,Decode時延降低50%,推動人工智能技術(shù)革新。
當(dāng)下,人工智能產(chǎn)業(yè)正處于迅猛發(fā)展的黃金時期。大模型MoE結(jié)構(gòu)不斷迭代,從少量大專家向大量小專家演進,這種轉(zhuǎn)變猶如從"全能型教授"轉(zhuǎn)向"?漆t(yī)生團隊",讓每個專家更專注于特定領(lǐng)域,從而顯著提升模型的整體效果。然而,要讓大模型真正普及開來,性能是繞不開的關(guān)鍵因素。在這樣的背景下,大規(guī)模專家并行技術(shù)憑借其更大的吞吐能力和更低的時延,成為推理系統(tǒng)的重要發(fā)展方向。
強強聯(lián)合,釋放算力極致性能
移動云與華為強強聯(lián)合,在軟件技術(shù)和并行策略等多個維度展開深度創(chuàng)新,充分釋放昇騰AI算力底座的極致性能。雙方聚焦跨節(jié)點專家并行部署難題,將DeepSeek V3/R1大模型的288個專家巧妙分布到不同的卡上,實現(xiàn)權(quán)重占用減少75% 。同時,通過優(yōu)化AlltoAll通信,效率提升了35%。在此基礎(chǔ)上,疊加專家熱點均衡算法,成功保障實例內(nèi)負載均衡。
平臺升級,推理服務(wù)高效穩(wěn)定
移動云MaaS平臺基于大規(guī)模專家并行方案構(gòu)建大規(guī)模、高可靠、高性能的推理引擎能力體系,通過優(yōu)化P&D算力分配提升資源利用率,采用拓撲感知調(diào)度提升跨節(jié)點通信效率,并依托多級容災(zāi)機制實現(xiàn)故障快速隔離與恢復(fù),實現(xiàn)移動云MaaS服務(wù)在AI推理性能倍增的同時保障業(yè)務(wù)連續(xù)性,最終以更優(yōu)成本效益為客戶提供高效穩(wěn)定的推理服務(wù)。
推理優(yōu)化,COCA推理吞吐極致發(fā)揮
這一大規(guī)模專家并行推理集群中,COCA推理系統(tǒng)為大云磐石超節(jié)點和智算裸金屬集群提供了強大的賦能支持。移動云借助定制化的優(yōu)化算法和智能調(diào)度策略,將昇騰硬件的并行計算能力發(fā)揮到極致,大幅提升整體推理吞吐。更值得一提的是,在多個關(guān)鍵技術(shù)層面,移動云深入挖掘國產(chǎn)硬件的潛力,為國產(chǎn)算力的崛起貢獻了堅實力量。
此次移動云大規(guī)模專家并行推理集群的成功部署,對于推動我國在AI底層架構(gòu)和國產(chǎn)化技術(shù)協(xié)同領(lǐng)域的自主創(chuàng)新,具有重要意義。未來,移動云將為行業(yè)數(shù)字化轉(zhuǎn)型提供關(guān)鍵技術(shù)支撐,助力千行百業(yè)在智能化浪潮中加速前行。