C114通信網(wǎng)  |  通信人家園

資訊
2024/12/20 11:36

中國移動研究院完成首個面向流水線并行訓(xùn)練的OTN承載百公里級智算分布式協(xié)同現(xiàn)網(wǎng)技術(shù)試驗

C114通信網(wǎng)  

近日,在中國移動集團公司指導(dǎo)下,中國移動研究院聯(lián)合中國移動黑龍江公司在全球運營商最大單集群智算中心——中國移動(哈爾濱)數(shù)據(jù)中心完成首個面向PP(流水線并行)訓(xùn)練的OTN承載百公里級智算分布式協(xié)同現(xiàn)網(wǎng)技術(shù)試驗。本次技術(shù)試驗首次完成了基于800G OTN的104km跨智算集群分布式PP訓(xùn)練,實現(xiàn)了等同單節(jié)點訓(xùn)練效率98%以上的高效協(xié)同訓(xùn)練,是業(yè)界首次百公里級跨集群PP訓(xùn)練可行性技術(shù)驗證探索。

隨著智算集群規(guī)模向超萬卡演進,單智算節(jié)點的持續(xù)擴容將面臨電力供應(yīng)、機房空間的巨大挑戰(zhàn),而且智算中心分地域、分時期、分階段建設(shè)現(xiàn)象較為普遍。智算分布式協(xié)同是破解單節(jié)點集中部署受限、算力資源孤島等難題的重要解決方案。而如何將分布式部署的智算節(jié)點進行高效的互聯(lián),充分發(fā)揮算力資源的最大效能,是業(yè)界亟需研究的關(guān)鍵問題。OTN具有大帶寬、穩(wěn)定低時延、高可靠等傳輸和組網(wǎng)技術(shù)特點,已廣泛應(yīng)用于骨干傳送和城域傳送網(wǎng)絡(luò),是構(gòu)建跨集群分布式訓(xùn)練的潛在互聯(lián)技術(shù)。而分布式智算對光網(wǎng)絡(luò)的新需求與采用的DP(數(shù)據(jù)并行)、PP等訓(xùn)練并行模式直接相關(guān),其中,PP是基礎(chǔ)大模型訓(xùn)練的最常用并行方式之一,相比DP具有通信頻次高、通信時間不可全部掩蓋等更高難度,其拉遠可行性在業(yè)界存在較大分歧。

中國移動研究院面向智算分布式協(xié)同場景持續(xù)開展技術(shù)創(chuàng)新,完成業(yè)界首個面向PP訓(xùn)練的OTN承載百公里級智算分布式協(xié)同技術(shù)現(xiàn)網(wǎng)試驗。在試驗中基于800G OTN互聯(lián)的兩個智算集群上運行700億級參數(shù)的大型基礎(chǔ)語言模型,在64張GPU卡、4個PP域分別在相距104km的兩個節(jié)點部署場景下,實現(xiàn)了等同單節(jié)點訓(xùn)練效率98%以上的高效協(xié)同訓(xùn)練,是業(yè)界首次驗證了OTN承載基于PP的百公里跨集群訓(xùn)練可行性,為分布式智算技術(shù)演進提供了全新技術(shù)路線和詳實試驗數(shù)據(jù)。此外,還創(chuàng)新提出了面向智算分布式協(xié)同的OTN無損倒換技術(shù)方案,通過芯片級算法實現(xiàn)傳輸鏈路斷纖、誤碼時訓(xùn)練效率的無損和無感知。

自2023年起,中國移動研究院聯(lián)合國內(nèi)合作伙伴,開展跨集群分布式訓(xùn)練互聯(lián)技術(shù)攻關(guān),創(chuàng)新提出基于OTN的智算分布式協(xié)同架構(gòu),首次完成2-100公里不同距離多場景下OTN承載分布式智算技術(shù)試驗,相關(guān)成果在光通信頂會ECOC發(fā)表。中國移動后續(xù)將圍繞智算分布式協(xié)同深入推進關(guān)鍵技術(shù)攻關(guān)、原型研發(fā)與試驗驗證,探索分布式智算中心新模式。

給作者點贊
0 VS 0
寫得不太好

  免責(zé)聲明:本文僅代表作者個人觀點,與C114通信網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實,對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關(guān)內(nèi)容。

熱門文章
    最新視頻
    為您推薦

      C114簡介 | 聯(lián)系我們 | 網(wǎng)站地圖 | 手機版

      Copyright©1999-2025 c114 All Rights Reserved | 滬ICP備12002291號

      C114 通信網(wǎng) 版權(quán)所有 舉報電話:021-54451141