Labs 導讀
為了更好地解決行業(yè)合作、交互可信和數(shù)據(jù)共享問題,實現(xiàn)跨行業(yè)的模型共享訓練以及生態(tài)構建,天津公司人工智能實驗室打造了“珍瓏”,一款基于“區(qū)塊鏈+聯(lián)邦學習”的多方數(shù)據(jù)共享模型訓練引擎,用于智慧零售、風險評估和滿意度預測等場景,實現(xiàn)多方隱私數(shù)據(jù)共享,構建數(shù)據(jù)生態(tài),打破數(shù)據(jù)孤島,挖掘數(shù)據(jù)聯(lián)合價值,從而實現(xiàn)多方安全計算。
“珍瓏”取名字珍瓏棋局,來自于天龍八部小說情節(jié),逍遙派掌門人無崖子擺出一個“珍瓏”棋局,邀請?zhí)煜掠⑿蹃砥平?墒?0年均無人解得,最后,棋局竟然被虛竹閉著眼睛胡亂撞開。珍瓏,就是要匯聚各行業(yè)數(shù)據(jù)來產(chǎn)生價值,又能安全可信,最終一招點睛,全盤皆活。
這就是珍瓏的價值,通過引入先進的聯(lián)邦學習技術,充分發(fā)揮聯(lián)邦學習的跨行業(yè)模型共享能力,并將AI模型上鏈,結合聯(lián)盟鏈去中心化、開放、防篡改、匿名、可追溯的關鍵特性,打造構思奇巧又智慧共贏的共享智能引擎系統(tǒng),在運營商、本地生活、視頻內容、交通出行等多行業(yè)數(shù)據(jù)的支撐下,實現(xiàn)精確的營銷識別,并推薦最佳產(chǎn)品權益,讓區(qū)塊鏈+聯(lián)邦學習成為智慧零售的引擎、智腦。
1 珍瓏的創(chuàng)新點
(1)打造聯(lián)邦學習的模型共享訓練引擎,實現(xiàn)更精準的推薦。
基于聯(lián)邦學習模型實現(xiàn)中國移動和互聯(lián)網(wǎng)合作伙伴間的共享、共贏 ,在保護各企業(yè)的數(shù)據(jù)安全的基礎上,協(xié)調多方資源,實現(xiàn)企業(yè)間的聯(lián)合建模,提升數(shù)據(jù)挖掘和推薦的準確率。聯(lián)邦學習模型具有合理的激勵機制,參與方提供的數(shù)據(jù)越多,其模型的學習效果越好。珍瓏采用縱向聯(lián)邦學習機制,取出合作方針對相同用戶而特征不同的那部分數(shù)據(jù)進行共享訓練。
(2)打破數(shù)據(jù)壁壘,實現(xiàn)多方安全計算的新機制
“珍瓏”打破堅固的數(shù)據(jù)壁壘,其聯(lián)邦學習模型可以很好的解決數(shù)據(jù)不可出數(shù)據(jù)庫的壁壘問題,企業(yè)數(shù)據(jù)不需要出倉,不存在原始數(shù)據(jù)被復制,以及傳輸過程中的安全隱患,即可完成多方聯(lián)合建模,取得比單獨企業(yè)數(shù)據(jù)更好的預測效果,聯(lián)邦學習框架,也支持獲取更全面的客戶特征,打造共享又可信的合作生態(tài)機制。
(3)結合區(qū)塊鏈優(yōu)勢解決聯(lián)邦學習的安全問題,筑牢多方合作的信任基礎。
聯(lián)邦學習模型涉及到多方數(shù)據(jù)的共享訓練,由聯(lián)邦中心負責秘鑰管理和模型梯度管理,需要定期對聯(lián)邦中心進行審計,存在信任的問題。“珍瓏”采用區(qū)塊鏈這種“可信媒介”技術解決共識和可信問題,所記錄的交易不可篡改,模型的訓練、推理、角色對齊均上鏈,通過智能合約、共識計算等實現(xiàn)多方合作的可信網(wǎng)絡,且能在多方聯(lián)邦情況下以區(qū)塊代替中心節(jié)點的作用,降本增效。
2 珍瓏的技術先進性
珍瓏具有優(yōu)異的技術價值,創(chuàng)新性的將聯(lián)邦學習和區(qū)塊鏈結合起來,解決運營商實際問題,其架構如圖所示。
企業(yè)數(shù)據(jù)層,中國移動及合作伙伴的用戶隱私數(shù)據(jù)依然只存儲于各自內網(wǎng)系統(tǒng)中,訓練及推理請求均由內網(wǎng)應用發(fā)起。
聯(lián)邦參與方服務層,中國移動及合作伙伴分別構建一套本地AI模型,將模型特征及參數(shù),以及數(shù)據(jù)標識,提供給區(qū)塊服務層進行數(shù)據(jù)上鏈,并接收其他參與方的模型等數(shù)據(jù)進行數(shù)據(jù)共享的模型迭代更新。
區(qū)塊服務層,作為AI模型與區(qū)塊鏈CMBaas平臺的中間服務節(jié)點,提供定制化數(shù)據(jù)上鏈及數(shù)據(jù)消費的服務。
共享數(shù)據(jù)區(qū)塊平臺層,即CMBaas,通過智能合約及共識機制為整個系統(tǒng)提供去中心化、不可逆、互信的模型共享訓練平臺。
珍瓏的“聯(lián)邦學習+區(qū)塊鏈”應用,主要有數(shù)據(jù)對齊、模型訓練、模型推理三個數(shù)據(jù)流:
(1)數(shù)據(jù)對齊,在模型開始訓練之前,各參與方需要共享加密后的用戶id數(shù)據(jù),同步給其他參與方進行id對齊。
(2)模型訓練,聯(lián)邦參與方進行數(shù)據(jù)特征提取和本地模型訓練,模型參數(shù)通過區(qū)塊鏈上鏈服務進行數(shù)據(jù)上鏈,經(jīng)過CMBaas的智能合約判斷,并通過區(qū)塊鏈共識算法后,生成新的區(qū)塊。其他參與方的區(qū)塊消費服務檢測發(fā)現(xiàn)新區(qū)塊的生成,獲取到區(qū)塊數(shù)據(jù)后進行自己模型的參數(shù)迭代優(yōu)化,更新參數(shù),直到所有聯(lián)邦參與方均達到模型預設收斂條件。
(3)模型推理,中國移動及合作伙伴發(fā)起模型推理請求,區(qū)塊服務進行數(shù)據(jù)上鏈,智能合約及共識算法進行數(shù)據(jù)驗證并生成區(qū)塊,其他參與方監(jiān)測新區(qū)塊生成,判斷推理請求是否與自身相關,進行共同推理解密,請求方獲得最終模型推理結果,返回業(yè)務系統(tǒng)。
3 珍瓏的商業(yè)推廣價值
(1)“運營商+互聯(lián)網(wǎng)公司”多方共享的智慧零售
智慧零售的目的,就是要用AI和大數(shù)據(jù)技術為客戶帶來個性化的營銷服務。成功的營銷方案必須合理搭配產(chǎn)品特征、客戶購買能力和購買偏好等三大要素;ヂ(lián)網(wǎng)內容商擁有大量的產(chǎn)品信息、銀行或保險公司有客戶購買能力的數(shù)據(jù),中國移動有用戶的購買偏好信息。出于隱私保護是無法實現(xiàn)數(shù)據(jù)共享的,“珍瓏”就可以打破這種堅固的數(shù)據(jù)壁壘,基于聯(lián)邦學習模型,各個參與企業(yè)的數(shù)據(jù)停留在本地數(shù)據(jù)庫,即可完成多方安全計算和聯(lián)合建模,取得比單獨企業(yè)數(shù)據(jù)進更好的分析效果,獲取更全面的客戶特征,推薦更精準,挖掘更多的商機。
(2)“運營商+銀行”聯(lián)合信用評估
珍瓏利用聯(lián)邦學習技術搭建中國移動和銀行之間的聯(lián)邦和信用評分模型,雙方在不共享數(shù)據(jù)的基礎上實現(xiàn)了聯(lián)合建模,從技術上打破數(shù)據(jù)孤島,實現(xiàn)更準確高效的信用評估,同時,區(qū)塊鏈也確保了去中心化架構,多家運營商和銀行可以打造信用評分共享機制,結果可追溯且不可篡改,形成模型共享訓練生態(tài)。
4 珍瓏與區(qū)塊鏈的聯(lián)系
產(chǎn)品和區(qū)塊鏈技術結合緊密,真正用區(qū)塊鏈解決了AI建模的難題,實現(xiàn)“聯(lián)邦學習+區(qū)塊鏈”的新模式、新應用。
在多方共同參與模型訓練后,如何對多方數(shù)據(jù)進行統(tǒng)一管理,就成為一個重要課題,珍瓏通過引入?yún)^(qū)塊鏈智能合約技術解決這個難題。
(1)多方貢獻度判定
多參與方在進行數(shù)據(jù)上鏈時,均會在區(qū)塊鏈平臺生成一個永久不可逆的數(shù)據(jù)區(qū)塊,以此計算當前參與方本次上鏈對整體模型的貢獻度,在模型收斂后,可以對全部參與方對最終模型的貢獻度進行量化判斷,為聯(lián)邦參與方的合作提供談判依據(jù)。
(2)異常參與方識別
在平臺運營過程中,通過智能合約及共識算法對各參與方的訓練及推理請求進行統(tǒng)一規(guī)則的判定,如發(fā)現(xiàn)非法上鏈請求,將會拒絕在區(qū)塊鏈中生成區(qū)塊,從而規(guī)避風險,控制流量,保障優(yōu)質合作方的請求。
5 產(chǎn)品成效及下一步發(fā)展
當前,“珍瓏”整體架構已經(jīng)在CMBAAS區(qū)塊鏈平臺大賽中進行了demo的開發(fā)、部署、驗證工作,將B域大數(shù)據(jù)用戶標簽與O域家寬數(shù)據(jù)模擬兩方進行聯(lián)合共享訓練,實現(xiàn)用戶資費滿意度的預測模型。已實現(xiàn)的滿意度預測聯(lián)合訓練部署架構如下:
下一步將在三個方面持續(xù)提升:
(1)整體平臺部署及網(wǎng)絡聯(lián)調
在整體平臺架構中涉及內網(wǎng)應用主動訪問互聯(lián)網(wǎng)應用的需求,一方面,CMBaas區(qū)塊平臺及服務需要部署公網(wǎng),以吸引更多域外企業(yè)加入生態(tài),另一方面,聯(lián)邦學習需要獲取企業(yè)內網(wǎng)用戶數(shù)據(jù)實現(xiàn)多方數(shù)據(jù)聯(lián)合訓練,因此,需要打通內外網(wǎng)網(wǎng)絡,通過防火墻管控內外網(wǎng)聯(lián)通端口。
(2)構建統(tǒng)一管理平臺
構建一套參與方管理平臺,通過頁面可視化方式,一方面實現(xiàn)參與方的自助注冊、數(shù)據(jù)上傳、模型申請、推理服務等業(yè)務能力,另一方面為平臺提供參與方入駐審核、狀態(tài)管理、貢獻度查詢、異常參與方判斷等管理能力。
(3)擴展聯(lián)邦學習模型算法類型
目前已完成基于決策樹模型的資費滿意度預測模型構建,后續(xù)可以預置其他高級智能模型,如CNN/RNN,預訓練模型等,實現(xiàn)各參與方入駐后直接選擇相關模型進行業(yè)務場景構建。
后續(xù),“珍瓏”將積極推進平臺推廣及生態(tài)運營,吸引運營商領域以外的企業(yè)入駐,通過多方數(shù)據(jù)的可控共享,實現(xiàn)多方的業(yè)務共贏。
團隊介紹:
趙東明,項目負責人,博士,浙江大學博士后,中國移動AI中臺專家/“高層次”專家/IT高級專家,天津移動AI實驗室負責人,累計獲得116項科技獎勵及榮譽,16項發(fā)明專利,20余篇高水平論文,負責產(chǎn)品的人工智能、區(qū)塊鏈技術研發(fā)、算法研究和產(chǎn)業(yè)賦能工作。
田雷,技術負責人,北大數(shù)學系碩士,天津中心大數(shù)據(jù)架構專家,積累了大量數(shù)據(jù)倉庫和大數(shù)據(jù)平臺的系統(tǒng)架構、數(shù)據(jù)模型、需求開發(fā)的先進經(jīng)驗,負責產(chǎn)品的聯(lián)邦學習算法及大數(shù)據(jù)支撐工作。
劉靜,系統(tǒng)架構師,華中師范大學碩士,中國移動集團大數(shù)據(jù)專家,長期鉆研客戶需求深度挖掘,基于AI算法促進存量客戶價值循環(huán)升檔研究,負責產(chǎn)品的區(qū)塊鏈算法及工程實現(xiàn)。
石理,算法工程師,南開大學碩士,集團AI中臺專家,在人工智能、計算機視覺、機器學習方面具有較豐富的研發(fā)經(jīng)驗,負責視覺產(chǎn)品的聯(lián)邦學習算法研發(fā)。
吳娜,交互設計師,北京郵電大學碩士,UI專家,負責產(chǎn)品交互界面的設計、開發(fā),以及AI模型的標準、運營和優(yōu)化。
特別鳴謝:亞信科技PRD研發(fā)中心技術專家楊愛東、孔令魯、林大興、劉志勇、韋強申,以及CMC客服產(chǎn)品部的徐晨興、王新,給予充分的技術支持和幫助。