2025/2/19 16:17

新突破！中國電信復(fù)現(xiàn)DeepSeek R1，探索行業(yè)大模型建設(shè)新路徑

C114通信網(wǎng)

DeepSeek是由深度求索開發(fā)的低成本、高性能開源大語言模型，該模型通過強化學(xué)習與混合專家結(jié)構(gòu)（MOE）的技術(shù)創(chuàng)新，以工程優(yōu)化突破硬件限制，實現(xiàn)了“算力需求下降但性能提升”的反共識路徑。開源策略重塑了AI生態(tài)，為全球開發(fā)者提供普惠工具，標志著從“算力堆砌”向“算法效率”的產(chǎn)業(yè)轉(zhuǎn)型。中國電信政企信息服務(wù)事業(yè)群DeepSeek攻堅團隊緊跟技術(shù)潮流，基于行業(yè)數(shù)據(jù)復(fù)現(xiàn)R1模型，提出行業(yè)大模型優(yōu)化的新思路。

政企信息服務(wù)事業(yè)群DeepSeek攻堅團隊選取醫(yī)療行業(yè)數(shù)據(jù)作為實驗對象，基于Qwen2.5-14B和DeepSeek-R1-Dstill-Qwen-14B兩個開源模型，對DeepSeek-R1相關(guān)技術(shù)的復(fù)現(xiàn)實驗，通過復(fù)現(xiàn)其強化學(xué)習（RL）訓(xùn)練和基于R1的蒸餾模型監(jiān)督微調(diào)（SFT）訓(xùn)練過程，提高了政企醫(yī)療行業(yè)大模型的應(yīng)用能力，使行業(yè)大模型的落地有了新思路。

本次實驗通過兩種建設(shè)路徑提升行業(yè)大模型的應(yīng)用能力：

在數(shù)據(jù)方面

通過R1蒸餾模式提升行業(yè)數(shù)據(jù)質(zhì)量。在合成高質(zhì)量的行業(yè)數(shù)據(jù)的同時提升現(xiàn)有行業(yè)數(shù)據(jù)的質(zhì)量。

在訓(xùn)練方面

借鑒DeepSeek的GRPO強化學(xué)習模式，提升行業(yè)大模型訓(xùn)練效率和邏輯推理能力。讓模型更懂行業(yè)知識，更好地回答行業(yè)問題。

實驗準備

在數(shù)據(jù)準備階段，研究團隊通過DeepSeek-R1 API進行知識蒸餾，對原本僅包含問題和答案的醫(yī)療數(shù)據(jù)集進行了優(yōu)化升級，生成了包含完整推理過程和最終答案的高質(zhì)量醫(yī)療推理數(shù)據(jù)集。一系列優(yōu)化顯著提升了數(shù)據(jù)的邏輯性和質(zhì)量，為后續(xù)行業(yè)大模型的訓(xùn)練與優(yōu)化提供了可靠保障。畢竟，高質(zhì)量的數(shù)據(jù)是提升大模型能力的關(guān)鍵所在。

隨后，研究團隊分別對基于Qwen2.5-14B和DeepSeek-R1-Dstill-Qwen-14B兩個開源模型進行了SFT訓(xùn)練，旨在驗證經(jīng)過R1蒸餾優(yōu)化的基模型相較于原始基模在能力上是否存在顯著提升。

實驗分析

在RL復(fù)現(xiàn)階段，研究團隊采用GRPO算法對兩個開源模型進行了訓(xùn)練，并使用高質(zhì)量醫(yī)療推理數(shù)據(jù)集對其性能進行了全面評估。實驗過程如下圖，可看到RL后的模型能快速掌握基本格式與逐步掌握嚴格格式規(guī)范。

格式正確性獎勵

該獎勵值從一開始就在滿分附近波動，表明模型能夠快速學(xué)習到基本格式要求。

嚴格格式獎勵

該獎勵值在訓(xùn)練初期顯著上升，并最終趨于穩(wěn)定，說明模型逐步掌握了更嚴格的格式規(guī)范。

實驗對比結(jié)果顯示，經(jīng)過微調(diào)的模型在回答通用問題和專業(yè)問題時均表現(xiàn)出顯著提升。具體而言，模型不僅能夠提供更加準確和專業(yè)的答案，還引入了清晰的思考過程，使回答的邏輯性和可解釋性得到了增強。這種改進不僅提升了模型的可信度，也使其在醫(yī)療領(lǐng)域的實際應(yīng)用中更具實用價值。實驗結(jié)果表明，GRPO算法結(jié)合高質(zhì)量數(shù)據(jù)集的訓(xùn)練策略，能夠有效提升模型在復(fù)雜場景下的表現(xiàn)。

微調(diào)前模型回復(fù)：

微調(diào)后模型回復(fù)：

緊接著，研究團隊對行業(yè)蒸餾數(shù)據(jù)的微調(diào)過程進行了復(fù)現(xiàn)實驗，重點驗證了高質(zhì)量推理行業(yè)數(shù)據(jù)對模型性能的提升效果。實驗發(fā)現(xiàn)，經(jīng)過高質(zhì)量推理行業(yè)數(shù)據(jù)微調(diào)的模型在回答專業(yè)領(lǐng)域問題時表現(xiàn)顯著優(yōu)于未微調(diào)的模型，其答案的準確性和專業(yè)性均有明顯提升。實驗過程可以看到，加入instruction的模型（實驗2）對比沒有加入instruction的模型（實驗1）收斂速度略快、波動略小。

此外，微調(diào)后的模型能夠更穩(wěn)定地輸出帶有完整思考過程的答案，包括清晰的推理步驟和邏輯鏈條，這不僅增強了答案的可信度，也提高了模型在實際應(yīng)用中的實用性。對比結(jié)果如下：

微調(diào)前模型回復(fù)：

微調(diào)后模型回復(fù)：

　　模型評價

政企醫(yī)療行業(yè)大模型是基于Qwen-2.5 14B基模進行微調(diào)訓(xùn)練而產(chǎn)生的行業(yè)大模型，是專業(yè)的醫(yī)療垂直領(lǐng)域的大模型。其中V1是使用DeepSeek蒸餾前，V2是基于DeepSeek構(gòu)造數(shù)據(jù)進行微調(diào)和強化學(xué)習的版本，各個大模型在最專業(yè)的醫(yī)療大模型評測榜單之一——MedBench上的評分如下圖。

DeepSeek、行業(yè)大模型、Qwen能力對比

可以看出，經(jīng)過DeepSeek蒸餾的醫(yī)療行業(yè)大模型（V2）的綜合評分最高。

實驗總結(jié)

本次實驗驗證了DeepSeek相關(guān)技術(shù)在行業(yè)大模型優(yōu)化中的普適性和有效性，為行業(yè)大模型的性能提升提供了新的技術(shù)范式。通過將R1模型的蒸餾技術(shù)和強化學(xué)習機制深度融合到行業(yè)大模型的訓(xùn)練框架中，能夠顯著提升模型在垂直領(lǐng)域的知識理解、推理能力和場景適應(yīng)性。這一技術(shù)方案不僅解決了行業(yè)大模型訓(xùn)練中面臨的數(shù)據(jù)專業(yè)性、領(lǐng)域知識融合和應(yīng)用可靠性等核心問題，還為行業(yè)大模型的優(yōu)化提供了可復(fù)制的技術(shù)路徑。

實驗結(jié)果表明，采用該方案的行業(yè)大模型在領(lǐng)域知識問答、專業(yè)文本理解和復(fù)雜決策支持等任務(wù)上均實現(xiàn)了性能的顯著提升，為構(gòu)建行業(yè)大模型和各行業(yè)大模型的迭代升級提供了重要的技術(shù)支持和實踐經(jīng)驗參考。這一成果標志著行業(yè)大模型的優(yōu)化邁入了新的階段，為垂直領(lǐng)域智能化轉(zhuǎn)型提供了強有力的技術(shù)支撐。

給作者點贊

0 VS 0

寫得不太好

　　免責聲明：本文僅代表作者個人觀點，與C114通信網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實，對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾，請讀者僅作參考，并請自行核實相關(guān)內(nèi)容。

相關(guān)鏈接

轉(zhuǎn)型中國電信融合

中國電信研究院攜手產(chǎn)業(yè)界伙伴完成行業(yè)首次對稱速率50G-PON C+等級功率預(yù)算能力的系統(tǒng)級驗證
C114通信網(wǎng) 4-17
官方通報！原中國電信集團總經(jīng)理楊小偉被查
C114通信網(wǎng) 4-17
突發(fā)！原中國電信集團總經(jīng)理楊小偉被查
C114通信網(wǎng) 4-17
中國電信2024-2025年服務(wù)器集采結(jié)果公布：18家廠商瓜分近170億大單
C114通信網(wǎng) 顏翊4-17

新突破！中國電信復(fù)現(xiàn)DeepSeek R1，探索行業(yè)大模型建設(shè)新路徑

新突破！中國電信復(fù)現(xiàn)DeepSeek R1，探索行業(yè)大模型建設(shè)新路徑