2月25日,人工智能國際頂級學術(shù)會議AAAI 2025開幕,在此次大會論文錄用結(jié)果中,中國電信人工智能研究院(TeleAI)科研團隊10篇論文成功入選,不僅覆蓋大語言模型偏好對齊、視覺模型參數(shù)微調(diào)、正激勵噪聲(PI Noise)采樣和表征對齊等技術(shù)方面的突破,更包括人工智能與化學、醫(yī)療的交叉研究等多個方向的系列創(chuàng)新。
AAAI會議由國際先進人工智能協(xié)會主辦,是人工智能領域歷史最為悠久、最具影響力的頂級學術(shù)會議之一。本屆大會共收到12957篇有效投稿,最終3032篇文章脫穎而出,接收率為23.4%。
讓AI讀懂化學反應方程式
人工智能技術(shù)的創(chuàng)新在基礎科學研究中的作用越發(fā)凸顯。隨著大語言模型(LLM)的快速發(fā)展,AI對科學文獻和技術(shù)專利的理解、分析和描述正得到廣泛應用。LLM在化學任務中的重點之一是進行“分子文本描述生成”(Molecule Captioning),即將分子的相關(guān)信息轉(zhuǎn)化為自然語言文本描述,并在其之間進行對齊。然而,現(xiàn)有工作主要集中在單分子上,化學反應和自然語言文本之間的一致性在很大程度上仍然未被探索。
作為專利和文獻的重要組成部分之一,對化學反應進行準確描述不僅可以更好地理解化學反應的過程,且有助于促進化學合成和逆合成的自動化相關(guān)研究。
為此,TeleAI聯(lián)合華東師范大學等單位提出了一項“ReactGPT”框架,集成了基于化學反應的指紋檢索模塊、特定領域提示設計模塊、兩階段上下文調(diào)優(yōu)模塊。
基于化學反應的指紋檢索模塊利用“化學反應指紋”高效且精準地檢索相關(guān)反應,并通過計算不同反應指紋之間的相似度,快速從大規(guī)模的化學反應數(shù)據(jù)庫中找出與目標反應最相關(guān)的若干個反應實例。這種檢索方式基于反應的內(nèi)在特征,而非僅僅依靠簡單的關(guān)鍵詞匹配,大大提高了檢索的準確性和效率。同時,它為后續(xù)的上下文學習提供了高質(zhì)量、有針對性的示例,使得模型能夠基于這些相似反應更好地學習化學反應與文本之間的關(guān)聯(lián)模式。
特定領域提示設計模塊聚焦設計適用于化學領域的提示信息,以引導大語言模型更好地理解和處理化學反應與文本的對齊任務。該模塊會根據(jù)化學知識的特點和任務需求,精心設計提示內(nèi)容。這些提示可能包含特定的化學術(shù)語解釋、反應條件說明、文本生成的格式要求等。通過精心設計的提示,能夠有效激發(fā)大語言模型在化學領域的潛力,讓其生成更符合化學邏輯和規(guī)范的文本描述,從而提升模型在化學反應相關(guān)任務中的表現(xiàn)。
在兩階段上下文調(diào)優(yōu)模塊中,第一階段,利用從指紋檢索模塊獲取的相關(guān)反應示例和特定領域提示設計模塊生成的提示信息,讓模型在上下文中初步學習化學反應與文本的對齊模式。第二階段,對模型進行進一步的精細調(diào)優(yōu),結(jié)合更多的反饋信息和實際任務的要求,調(diào)整模型的參數(shù),使其能夠更準確地生成化學反應的文本描述。通過這種兩階段的調(diào)優(yōu)方式,逐步提升模型對化學反應的理解和文本生成能力,以適應不同復雜程度的化學反應與文本對齊任務。
ReactGPT框架旨在彌合化學反應與文本之間的差距。實驗結(jié)果表明,與先前模型相比,ReactGPT在解決化學反應問題和生成結(jié)構(gòu)正確的高質(zhì)量文本方面表現(xiàn)出色。
讓AI理解放射科醫(yī)學偏好
放射學報告對醫(yī)生的診斷意義重大,但人工撰寫不僅負擔重且易出錯,現(xiàn)有的自動報告生成技術(shù)RRG(Radiology Report Generation)方法多基于監(jiān)督回歸或注入額外知識,生成報告難以契合醫(yī)生多元偏好。
為應對這一挑戰(zhàn),TeleAI提出多目標偏好優(yōu)化(MPO),將預訓練的報告生成模型根據(jù)多個人類偏好進行調(diào)整,具體通過多維獎勵函數(shù)來微調(diào),并通過多目標強化學習(RL)進行優(yōu)化,從而使模型能夠在不同的偏好條件下生成符合特定醫(yī)生偏好的報告。
研究通過引入兩個新的模塊來實現(xiàn)與人類偏好的對齊。首先,設計了一個偏好向量融合(PVF)網(wǎng)絡,它位于標準的Transformer編碼器和解碼器之間,利用多頭注意力機制和殘差連接將偏好向量與編碼后的圖像特征融合,實現(xiàn)條件生成。其次,提出了一個多目標優(yōu)化(MOO)模塊,該模塊使用偏好向量表示偏好權(quán)重,并通過點積操作將多維獎勵與偏好向量線性組合,形成加權(quán)的多目標獎勵函數(shù)。然后,通過強化學習(RL)算法優(yōu)化這個加權(quán)獎勵函數(shù),引導RRG模型與偏好向量對齊。
在訓練階段,模型通過隨機采樣多樣化的偏好向量并優(yōu)化加權(quán)多目標獎勵函數(shù)進行對齊,從而在整體偏好空間上獲得最優(yōu)策略。在推理階段,模型能根據(jù)給定的偏好向量生成符合特定偏好的報告,無需進一步微調(diào)。這種方法不僅能夠生成符合人類偏好的報告,而且在單個模型內(nèi)無需額外的微調(diào)即可適應不同偏好,實現(xiàn)了在兩個公共數(shù)據(jù)集上的性能達到了最先進的水平。
人工智能與化學、醫(yī)療等交叉學科的結(jié)合,能夠為各領域的研究工作帶去新方法和新視角,為解決復雜問題提供更全面的思路和方向,為培養(yǎng)復合型人才提供實踐土壤。未來,TeleAI將結(jié)合中國電信在算力、數(shù)據(jù)、應用場景等多方面的優(yōu)勢,持續(xù)推進這種跨學科的合作模式,推動人工智能研究不斷開創(chuàng)新的局面。