科技媒體 The Decoder 昨日(9 月 10 日)報(bào)道,對(duì)比平臺(tái) Artificial Analysis 相關(guān)數(shù)據(jù)表明,Reflection 70B AI 模型在基準(zhǔn)測(cè)試中的表現(xiàn),實(shí)際上不及 Meta 的 LLaMA-3.1-70B。
針對(duì) AI 模型基準(zhǔn)測(cè)試結(jié)果不佳,Reflection 公司首席執(zhí)行官馬特 舒默(Matt Shumer)表示,上傳模型權(quán)重至 Hugging Face 時(shí)遇到問(wèn)題,所使用的權(quán)重是多個(gè)不同模型的混合體,而他們內(nèi)部托管的模型則顯示出更佳的結(jié)果。
舒默隨后向部分用戶提供了獨(dú)家訪問(wèn)內(nèi)部模型的權(quán)限,Artificial Analysis 重做了測(cè)試,并報(bào)告結(jié)果優(yōu)于公開 API,只是他們無(wú)法確認(rèn)所訪問(wèn)的具體是哪個(gè)模型。
Reflection 在 Hugging Face 已上傳了新的模型,不過(guò)這些模型在測(cè)試中的表現(xiàn)明顯遜于之前通過(guò)私有 API 提供的模型。
查詢公開資料,有用戶還發(fā)現(xiàn)了證據(jù),表明 Reflection API 有時(shí)會(huì)調(diào)用 Anthropic Claude 3.5 Sonnet 以及 OpenAI。
舒默旗下公司 OthersideAI 此前已宣布計(jì)劃于本周發(fā)布一款基于 LLaMA 3.1 450B 的更大、更強(qiáng)大的模型。
舒默對(duì)這一即將發(fā)布的版本做出了大膽聲明,稱其不僅將成為最佳的開源模型,還將是有史以來(lái)最優(yōu)秀的語(yǔ)言模型。
官方回應(yīng):