近日,在CCSA (中國通信標準化協(xié)會)TC1(互聯(lián)網與應用)WG4(數據中心)工作組會議上,中國移動牽頭的《異構智能算力硬件統(tǒng)一通信機制技術要求》行業(yè)標準獲批立項,標準獲得信通院、燧原、天數智芯、瀚博、曙光、中興、中國信息通信科技集團等產業(yè)伙伴的支持及共同參與。
當前云計算數據中心內智能算力形態(tài)呈現多樣化發(fā)展趨勢,不同廠商、不同類型的智能算力硬件,如GPGPU(通用圖像處理器)、NPU(神經網絡處理器)、DSA(領域專用加速器)等,亟需一體協(xié)同工作,充分發(fā)揮各自計算優(yōu)勢,充分釋放系統(tǒng)整體效能。而異構混合算力集群中,智能算力硬件互聯(lián)方式各異、通信協(xié)議、數據格式及通信接口不一致,各硬件廠商通信庫不兼容,難以實現異構硬件設備間的信息傳遞及參數同步,亟需面向異構混合算力環(huán)境設計一套異構算力分布式統(tǒng)一通信標準。
根據統(tǒng)一通信技術與智算芯片軟件棧關系,智能算力硬件統(tǒng)一通信是面向分布式訓推場景的通信機制標準約束,是面向異構智算芯片定義的一套統(tǒng)一通用的通信方法,可用于處理異構智算芯片訓推過程所涉及的參數傳遞、梯度更新等數據傳輸協(xié)同相關操作。
統(tǒng)一通信技術與智算芯片軟件棧關系示意圖
基于統(tǒng)一通信技術研究目標,標準從數據傳輸架構、流程及接口等方面制定了一系列規(guī)范化約束,旨在實現同一訓推任務下的跨架構分布式并行數據傳輸及協(xié)同。標準內容將包括統(tǒng)一通信機制架構、異構算力通信初始化流程及接口、異構算力通信拓撲發(fā)現流程及接口、異構算力數據傳輸通道建立流程及接口等。
未來,中國移動將與產學研用各界合作伙伴一起,推動不同廠家、不同架構異構智能算力間形成統(tǒng)一通信機制,助力我國智算生態(tài)融通發(fā)展。