C114通信網(wǎng)  |  通信人家園

人工智能
2024/12/16 10:14

Kimi發(fā)布視覺思考模型k1:試題拍照給出答題思考全過程

IT之家  汪淼

月之暗面 Kimi 今日發(fā)布視覺思考模型 k1。該模型基于強(qiáng)化學(xué)習(xí)技術(shù)打造,原生支持端到端圖像理解和思維鏈技術(shù),并將能力擴(kuò)展到數(shù)學(xué)之外的更多基礎(chǔ)科學(xué)領(lǐng)域。

月之暗面官方表示,在數(shù)學(xué)、物理、化學(xué)等基礎(chǔ)科學(xué)學(xué)科的基準(zhǔn)能力測(cè)試中,初代 k1 模型的表現(xiàn)超過了 OpenAI o1、GPT-4o 以及 Claude 3.5 Sonnet。

從月之暗面官方獲悉,Kimi 新模型發(fā)布即上線。k1 視覺思考模型已陸續(xù)上線最新版「Kimi 智能助手」的 Android和 iPhone手機(jī) App 以及網(wǎng)頁版 kimi.com。在最新版手機(jī) App 或網(wǎng)頁版 Kimi+ 頁面找到「Kimi 視覺思考版」,即可拍照或傳圖體驗(yàn)。

「Kimi 視覺思考版」會(huì)完整呈現(xiàn)推理思維鏈 CoT,讓用戶不只看到答題結(jié)果,也能完整看到模型思索答案的全過程。

從模型訓(xùn)練的角度看,k1 視覺思考模型的訓(xùn)練分為兩個(gè)階段,先通過預(yù)訓(xùn)練得到基礎(chǔ)模型,再在基礎(chǔ)模型上進(jìn)行強(qiáng)化學(xué)習(xí)后訓(xùn)練。k1 的基礎(chǔ)模型重點(diǎn)優(yōu)化了字符識(shí)別能力,在 OCRBench 上得到 903 分的(state-of-the-art)結(jié)果,在 MathVista-testmini、MMMU-val 和 DocVQA 基準(zhǔn)測(cè)試集上分?jǐn)?shù)分別為 69.1、66.7 和 96.9。

月之暗面表示,k1 的強(qiáng)化學(xué)習(xí)后訓(xùn)練在數(shù)據(jù)質(zhì)量和學(xué)習(xí)效率方面做了進(jìn)一步優(yōu)化,在強(qiáng)化學(xué)習(xí)的規(guī);╯caling)上取得了新的突破。

此外,科學(xué)的模型能力基準(zhǔn)測(cè)試方案是大模型行業(yè)面臨的重要挑戰(zhàn)之一。由于市面上缺乏針對(duì)基礎(chǔ)科學(xué)學(xué)科的圖形測(cè)試集,Kimi 模型研發(fā)團(tuán)隊(duì)自主構(gòu)建了一個(gè)標(biāo)準(zhǔn)化的測(cè)試集 Science Vista,涵蓋不同難度的數(shù)理化圖片題目,且從分布上與實(shí)際用戶需求較為匹配。該測(cè)試集將開放給全行業(yè),用戶可申請(qǐng)?jiān)谠S可范圍內(nèi)使用

在內(nèi)部測(cè)試中,月之暗面也發(fā)現(xiàn)了一些 k1 視覺思考模型存在的局限性,例如在分布外(out-of-distribution)的泛化、在更復(fù)雜問題上的成功率、在更多噪聲場(chǎng)景的準(zhǔn)確率、多輪問答效果等方面,有很大提升空間。在一些場(chǎng)景和泛化能力上,k1 模型與 OpenAI 的 o1 系列模型相比仍有差距。

給作者點(diǎn)贊
0 VS 0
寫得不太好

免責(zé)聲明:本文僅代表作者個(gè)人觀點(diǎn),與C114通信網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,請(qǐng)讀者僅作參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。

熱門文章
    最新視頻
    為您推薦

      C114簡(jiǎn)介 | 聯(lián)系我們 | 網(wǎng)站地圖 | 手機(jī)版

      Copyright©1999-2025 c114 All Rights Reserved | 滬ICP備12002291號(hào)

      C114 通信網(wǎng) 版權(quán)所有 舉報(bào)電話:021-54451141