今天凌晨,阿里通義千問(wèn)團(tuán)隊(duì)宣布推出新一代視覺(jué)推理模型 QVQ-Max。
據(jù)官方介紹,QVQ-Max 不僅能夠理解圖片和視頻內(nèi)容,還能為上述信息提供分析并推理。不止分析和推理,QVQ-Max 還可以完成設(shè)計(jì)插圖、生成短視頻劇本等內(nèi)容,甚至根據(jù)用戶的需求創(chuàng)建角色扮演內(nèi)容。
核心能力:從觀察到推理
QVQ-Max 的能力可以總結(jié)為三個(gè)方面:細(xì)致觀察、深入推理和靈活應(yīng)用。下面分別來(lái)說(shuō)說(shuō)它在這些方面的表現(xiàn)。
細(xì)致觀察:抓住每一個(gè)細(xì)節(jié)
QVQ-Max 對(duì)圖片的解析能力非常強(qiáng),無(wú)論是復(fù)雜的圖表還是日常生活中隨手拍的照片,它都能快速識(shí)別出關(guān)鍵元素。比如,它可以告訴你一張照片里有哪些物品、有什么文字標(biāo)識(shí),甚至還能指出一些你可能忽略的小細(xì)節(jié)。
深入推理:不只是“看到”,還要“想到”
僅僅識(shí)別出圖片里的內(nèi)容還不夠,QVQ-Max 還能進(jìn)一步分析這些信息,并結(jié)合背景知識(shí)得出結(jié)論。例如,在一道幾何題中,它可以根據(jù)題目附帶的圖形推導(dǎo)出答案;在一段視頻里,它能根據(jù)畫(huà)面內(nèi)容推測(cè)出接下來(lái)可能發(fā)生的情節(jié)。
靈活應(yīng)用:從解答問(wèn)題到創(chuàng)作
除了分析和推理,QVQ-Max 還能做一些有趣的事情,比如幫你設(shè)計(jì)插畫(huà)、生成短視頻腳本,甚至根據(jù)你的需求創(chuàng)作角色扮演的內(nèi)容。如果你上傳一幅草稿,它可能會(huì)幫你完善成一幅完整的作品;上傳一個(gè)日常照片,它可以化身犀利的評(píng)論家,占卜師。
QVQ-Max 的應(yīng)用范圍很廣,無(wú)論是在學(xué)習(xí)、工作還是日常生活中都能派上用場(chǎng)。
職場(chǎng)工具:在工作中,QVQ-Max 可以協(xié)助完成數(shù)據(jù)分析、信息整理、編程寫(xiě)代碼等任務(wù)。
學(xué)習(xí)助手:對(duì)于學(xué)生來(lái)說(shuō),QVQ-Max 可以幫助解答數(shù)學(xué)、物理等科目的難題,尤其是那些配有圖表的題目。它還能通過(guò)直觀的方式講解復(fù)雜概念,讓學(xué)習(xí)變得更輕松。
生活小幫手:在生活中,QVQ-Max 也能提供不少實(shí)用建議。比如,它可以根據(jù)你的衣柜照片推薦穿搭方案,或者根據(jù)食譜圖片指導(dǎo)你如何烹飪一道新菜。
IT之家注意到,目前該模型已上線 Qwen Chat,用戶只需上傳任意圖片或視頻,提出問(wèn)題,并點(diǎn)擊“Thinking”按鈕,即可使用 QVQ-Max 的推理能力。
阿里巴巴表示,這只是該模型演化過(guò)程中的一個(gè)階段,未來(lái)還將持續(xù)優(yōu)化其性能并擴(kuò)展功能。