阿里通義千問今天(11 月 28 日)發(fā)布《QwQ: 思忖未知之界》博文,推出了 QwQ-32B-Preview 實(shí)驗(yàn)性研究模型,在數(shù)學(xué)和編程領(lǐng)域,尤其在需要深度推理的復(fù)雜問題上,具備卓越的 AI 推理能力。
它是少數(shù)能與 OpenAI 的 o1 匹敵的模型之一,并且是第一個(gè)能以寬松許可證下載的模型。QwQ-32B-Preview 在 Apache 2.0 許可證下“公開”可用,這意味著它可以用于商業(yè)應(yīng)用。
QwQ 愿景
阿里通義千問團(tuán)隊(duì)表示“思考、質(zhì)疑、理解,是人類探索未知的永恒追求”,而 QwQ 猶如一位懷抱無盡好奇的學(xué)徒,以思考和疑問照亮前路。
模型局限性
阿里通義千問團(tuán)隊(duì)首先表明 QwQ 模型具備局限性,仍在學(xué)習(xí)如何行走于理性之路,它的思緒偶爾飄散,答案或許未盡完善,智慧仍在積淀。
附上原文中對(duì)該模型的局限性介紹如下:
語言切換問題:模型可能在回答中混合使用不同語言,影響表達(dá)的連貫性。
推理循環(huán):在處理復(fù)雜邏輯問題時(shí),模型偶爾會(huì)陷入遞歸推理模式,在相似思路中循環(huán)。這種行為雖然反映了模型試圖全面分析的努力,但可能導(dǎo)致冗長而不夠聚焦的回答。
安全性考慮:盡管模型已具備基礎(chǔ)安全管控,但仍需要進(jìn)一步增強(qiáng)。它可能產(chǎn)生不恰當(dāng)或存在偏見的回答,且與其他大型語言模型一樣,可能受到對(duì)抗攻擊的影響。我們強(qiáng)烈建議用戶在生產(chǎn)環(huán)境中謹(jǐn)慎使用,并采取適當(dāng)?shù)陌踩雷o(hù)措施。
能力差異:QwQ-32B-Preview 在數(shù)學(xué)和編程領(lǐng)域表現(xiàn)出色,但在其他領(lǐng)域仍有提升空間。模型性能會(huì)隨任務(wù)的復(fù)雜度和專業(yè)程度而波動(dòng)。我們正通過持續(xù)優(yōu)化,努力提升模型的綜合能力。
模型表現(xiàn)
QwQ-32B-Preview 包含 325 億個(gè)參數(shù),能夠處理最長 32000 個(gè) tokens 的提示詞;在 AIME 和 MATH 基準(zhǔn)測試中,它的表現(xiàn)優(yōu)于 OpenAI 的兩個(gè)推理模型 o1-preview 和 o1-mini。
GPQA
該基準(zhǔn)是一個(gè)通過小學(xué)級(jí)別問題評(píng)估高階科學(xué)解題能力的評(píng)測集,旨在考察科學(xué)問題解決能力。QwQ-32B-Preview 評(píng)分為 65.2%,展示了研究生水平的科學(xué)推理能力。
AIME
該基準(zhǔn)涵蓋算術(shù)、代數(shù)、計(jì)數(shù)、幾何、數(shù)論、概率等中學(xué)數(shù)學(xué)主題的綜合評(píng)測,測試數(shù)學(xué)問題解決能力。QwQ-32B-Preview 評(píng)分為 50.0%,證明了強(qiáng)大的數(shù)學(xué)問題解決技能。
MATH-500
該基準(zhǔn)包含 500 個(gè)測試樣本的 MATH 評(píng)測集,全面考察數(shù)學(xué)解題能力。QwQ-32B-Preview 成績?yōu)?90.6%,體現(xiàn)了在各類數(shù)學(xué)主題上的全面理解。
LiveCodeBench
該基準(zhǔn)評(píng)估真實(shí)編程場景中代碼生成和問題解決能力的高難度評(píng)測集。QwQ-32B-Preview 成績?yōu)?50.0%,驗(yàn)證了在實(shí)際編程場景中的出色表現(xiàn)。