在火山引擎 Force 大會(huì)上,字節(jié)跳動(dòng)正式發(fā)布豆包視覺(jué)理解模型。據(jù)透露,這是一個(gè)更具性價(jià)比的方案——豆包視覺(jué)理解模型千tokens輸入價(jià)格僅為3厘,經(jīng)換算,一元錢(qián)可處理284張720P的圖片,比行業(yè)價(jià)格便宜85%。
據(jù)火山引擎總裁譚待在現(xiàn)場(chǎng)介紹,豆包視覺(jué)理解模型不僅能精準(zhǔn)識(shí)別視覺(jué)內(nèi)容,還具備出色的理解和推理能力,可根據(jù)圖像信息進(jìn)行復(fù)雜的邏輯計(jì)算,完成分析圖表、處理代碼、解答學(xué)科問(wèn)題等任務(wù)。此外,該模型有較為細(xì)膩的視覺(jué)描述和創(chuàng)作能力。
圖:火山引擎總裁譚待
此前,豆包視覺(jué)理解模型已經(jīng)接入豆包App和PC端產(chǎn)品。而考慮到要讓用戶的輸入更快更方便,豆包產(chǎn)品非常注重多模態(tài)的輸入和打磨,包括語(yǔ)音、視覺(jué)等能力,這些模型都已通過(guò)火山引擎開(kāi)放給企業(yè)客戶。
此外,豆包大模型多款產(chǎn)品也迎來(lái)重要更新,據(jù)現(xiàn)場(chǎng)披露,豆包通用模型pro已全面對(duì)齊GPT-4o,使用價(jià)格僅為后者的1/8;音樂(lè)模型從生成60秒的簡(jiǎn)單結(jié)構(gòu),升級(jí)到生成3分鐘的完整作品;文生圖模型2.1版本,更是在業(yè)界首次實(shí)現(xiàn)精準(zhǔn)生成漢字和一句話P圖的產(chǎn)品化能力,該模型已接入即夢(mèng)AI和豆包App。
另?yè)?jù)分享,2025年春季將推出具備更長(zhǎng)視頻生成能力的豆包視頻生成模型1.5版,豆包端到端實(shí)時(shí)語(yǔ)音模型也將很快上線。譚待表示,豆包大模型雖然發(fā)布較晚,但一直在快速迭代進(jìn)化。
數(shù)據(jù)顯示,截至12月中旬,豆包通用模型的日均tokens使用量已超過(guò)4萬(wàn)億,較七個(gè)月前首次發(fā)布時(shí)增長(zhǎng)了33倍。