2025/3/26 16:40

運營商重磅首發(fā)！大規(guī)模專家并行推理集群實現(xiàn)3倍吞吐

C114通信網(wǎng)

近日，移動云成功部署基于國產(chǎn)算力的 “大規(guī)模專家并行”推理集群，在移動云MaaS平臺，COCA推理系統(tǒng)上線，實現(xiàn)DeepSeek MoE大模型跨節(jié)點高效集群推理。該方案突破性實現(xiàn)單卡吞吐提升3倍，Decode時延降低50%，推動人工智能技術(shù)革新。

當(dāng)下，人工智能產(chǎn)業(yè)正處于迅猛發(fā)展的黃金時期。大模型MoE結(jié)構(gòu)不斷迭代，從少量大專家向大量小專家演進，這種轉(zhuǎn)變猶如從"全能型教授"轉(zhuǎn)向"�？漆t(yī)生團隊"，讓每個專家更專注于特定領(lǐng)域，從而顯著提升模型的整體效果。然而，要讓大模型真正普及開來，性能是繞不開的關(guān)鍵因素。在這樣的背景下，大規(guī)模專家并行技術(shù)憑借其更大的吞吐能力和更低的時延，成為推理系統(tǒng)的重要發(fā)展方向。

強強聯(lián)合，釋放算力極致性能

移動云與華為強強聯(lián)合，在軟件技術(shù)和并行策略等多個維度展開深度創(chuàng)新，充分釋放昇騰AI算力底座的極致性能。雙方聚焦跨節(jié)點專家并行部署難題，將DeepSeek V3/R1大模型的288個專家巧妙分布到不同的卡上，實現(xiàn)權(quán)重占用減少75% 。同時，通過優(yōu)化AlltoAll通信，效率提升了35%。在此基礎(chǔ)上，疊加專家熱點均衡算法，成功保障實例內(nèi)負載均衡。

平臺升級，推理服務(wù)高效穩(wěn)定

移動云MaaS平臺基于大規(guī)模專家并行方案構(gòu)建大規(guī)模、高可靠、高性能的推理引擎能力體系，通過優(yōu)化P&D算力分配提升資源利用率，采用拓撲感知調(diào)度提升跨節(jié)點通信效率，并依托多級容災(zāi)機制實現(xiàn)故障快速隔離與恢復(fù)，實現(xiàn)移動云MaaS服務(wù)在AI推理性能倍增的同時保障業(yè)務(wù)連續(xù)性，最終以更優(yōu)成本效益為客戶提供高效穩(wěn)定的推理服務(wù)。

推理優(yōu)化，COCA推理吞吐極致發(fā)揮

這一大規(guī)模專家并行推理集群中，COCA推理系統(tǒng)為大云磐石超節(jié)點和智算裸金屬集群提供了強大的賦能支持。移動云借助定制化的優(yōu)化算法和智能調(diào)度策略，將昇騰硬件的并行計算能力發(fā)揮到極致，大幅提升整體推理吞吐。更值得一提的是，在多個關(guān)鍵技術(shù)層面，移動云深入挖掘國產(chǎn)硬件的潛力，為國產(chǎn)算力的崛起貢獻了堅實力量。

此次移動云大規(guī)模專家并行推理集群的成功部署，對于推動我國在AI底層架構(gòu)和國產(chǎn)化技術(shù)協(xié)同領(lǐng)域的自主創(chuàng)新，具有重要意義。未來，移動云將為行業(yè)數(shù)字化轉(zhuǎn)型提供關(guān)鍵技術(shù)支撐，助力千行百業(yè)在智能化浪潮中加速前行。

給作者點贊

0 VS 0

寫得不太好

　　免責(zé)聲明：本文僅代表作者個人觀點，與C114通信網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實，對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾，請讀者僅作參考，并請自行核實相關(guān)內(nèi)容。

相關(guān)鏈接

華為自主創(chuàng)新轉(zhuǎn)型

運營商如何助力“專項債”市場高質(zhì)量發(fā)展
賽立信通信研究部曹先震4-5
大模型驅(qū)動運營商數(shù)智化躍遷
賽立信通信研究部蘇璐靜4-5
全球衛(wèi)星運營商Skylo授予智聯(lián)安科技（MLINK）中國大陸首個IoT-NTN芯片認(rèn)證
C114通信網(wǎng) 4-2
信而泰邀您共赴2025中國移動云智算大會，見證數(shù)智未來！
C114通信網(wǎng) 4-2

運營商重磅首發(fā)！大規(guī)模專家并行推理集群實現(xiàn)3倍吞吐

運營商重磅首發(fā)！大規(guī)模專家并行推理集群實現(xiàn)3倍吞吐