與月之暗面、智譜AI、Minimax、百川智能等獲得大廠投資的AI初創(chuàng)公司不同,DeepSeek與科技巨頭間并無直接關(guān)系。不過,DeepSeek自身的算力儲備卻堪與大廠比肩。
被熱議的東方力量
神秘的東方力量再次震驚了世界,這次是大模型。
12月26日,國內(nèi)私募機構(gòu)幻方量化旗下的DeepSeek(深度求索)發(fā)布新一代開源大模型DeepSeek-v3,深度求索在技術(shù)報告中提到,作為一款參數(shù)量高達 671B 的大型語言模型,DeepSeek-V3在預(yù)訓(xùn)練階段只用 2048 塊 GPU 訓(xùn)練了不到 2 個月,總計 266.4 萬個 GPU 小時,且只花費了 557.6 萬美元(約4070.1萬元人民幣)。
這意味著DeepSeek-V3的訓(xùn)練成本約為GPT-4o的二十分之一。Anthropic的CEO達里奧·阿莫迪不久前曾透露,GPT-4o這樣的模型訓(xùn)練成本約為1億美元,而目前正在開發(fā)的AI大模型訓(xùn)練成本可能高達10億美元。未來三年內(nèi),AI大模型的訓(xùn)練成本將上升至100億美元甚至1000億美元。
性能方面,據(jù)DeepSeek-V3 技術(shù)報告稱,在英語、代碼、數(shù)學(xué)、漢語以及多語言任務(wù)上,基礎(chǔ)模型 DeepSeek-V3 Base 的表現(xiàn)非常出色,在 AGIEval、CMath、MMMLU-non-English 等一些任務(wù)上甚至遠遠超過其它開源大模型。就算與 GPT-4o 和 Claude 3.5 Sonnet 這兩大領(lǐng)先的閉源模型相比,DeepSeek-V3 也毫不遜色,并且在 MATH 500、AIME 2024、Codeforces 上都有明顯優(yōu)勢。
廣發(fā)證券分析稱,DeepSeek-V3算力成本降低的原因有兩點:第一,DeepSeek-V3采用的DeepSeekMoE是通過參考了各類訓(xùn)練方法后優(yōu)化得到的,避開了行業(yè)內(nèi)AI大模型訓(xùn)練過程中的各類問題;第二,DeepSeek-V3采用的MLA架構(gòu)可以降低推理過程中的kv緩存開銷,其訓(xùn)練方法在特定方向的選擇也使得其算力成本有所降低。
行業(yè)外少有人知道的是,DeepSeek也是大模型價格戰(zhàn)的最早發(fā)起者,被稱為“AI界拼多多”。2024年5月,DeepSeek發(fā)布的DeepSeek V2的開源模型,提供了一種史無前例的性價比:推理成本被降到每百萬token僅1塊錢,約等于Llama3 70B的七分之一,GPT-4 Turbo的七十分之一。
在DeepSeek-V3的定價上,API定價為輸入每百萬tokens 0.5元(緩存命中)/2元(緩存未命中),輸出每百萬tokens 8元,與字節(jié)Doubao-pro-256k定價輸入每百萬tokens 5元,輸出每百萬tokens 9元的水平相當,在國產(chǎn)模型中性價比較高。
“今天,一家中國AI公司輕而易舉地發(fā)布了一個前沿大語言模型。”著名人工智能科學(xué)家和特斯拉前人工智能和自動駕駛視覺總監(jiān)、OpenAI早期成員安德烈·卡帕西(Andrej Karpathy)評價DeepSeek-V3的表現(xiàn)時稱,“如果此模型還能通過各項評估,那么這將是資源受限條件下研究與工程能力的高度令人印象深刻的展示。”
“我一直在關(guān)注DeepSeek。去年他們擁有最好的開源編碼模型之一。卓越的開源模型給前沿的大語言模型商業(yè)公司帶來了巨大的壓力,迫使他們加快步伐。”英偉達高級科學(xué)家范麟熙(Jim Fan)認為,在競爭激烈的人工智能領(lǐng)域中,生存本能是推動突破的主要動力。
千億量化私募的AI創(chuàng)業(yè)
在眾多中國大模型創(chuàng)業(yè)公司中,Deepseek的路線最不同。它的中文名是“深度求索”,為知名私募巨頭幻方量化創(chuàng)立的子公司。
2023年4月,幻方宣布成立新組織,集中資源和力量,探索AGI的本質(zhì),在一年多時間里進展迅速。當時幻方就表示,多年以來,該公司堅持把營收的大部分投入人工智能領(lǐng)域,建設(shè)領(lǐng)先的AI硬件基礎(chǔ)設(shè)施,進行大規(guī)模的研究,探索人類未知的奧秘。
與月之暗面、智譜AI、Minimax、百川智能等獲得大廠投資的AI初創(chuàng)公司不同,DeepSeek與科技巨頭間并無直接關(guān)系。不過,DeepSeek自身的算力儲備卻堪與大廠比肩。
有云計算專家提出,1萬枚英偉達A100芯片是做AI大模型的算力門檻。當中國云廠商受限于緊缺的GPU芯片時,幻方卻早早押中了大模型賽道的入場券。據(jù)報道,除商湯科技、百度、騰訊、字節(jié)、阿里等科技巨頭外,幻方也手握著超1萬枚GPU。
幻方量化和Deepseek創(chuàng)始人梁文鋒曾在媒體采訪中表示,幻方對算力的儲備并不突然。在2019年,幻方就已投資2億元自研深度學(xué)習(xí)訓(xùn)練平臺“螢火一號”,搭載了1100塊GPU。到了2021年,“螢火二號”的投入增加到10億元,搭載了約1萬張英偉達A100顯卡。一年后,OpenAI發(fā)布ChatGPT的公開測試版本,拉開全球新一輪AI熱潮的序幕。
事實上,在量化投資領(lǐng)域,幻方也是一個特立獨行的存在;梅搅炕欢仁侵袊准彝黄魄|私募的量化大廠,準確的說也是迄今為止業(yè)內(nèi)唯一規(guī)模曾邁過千億大關(guān)的量化私募。
“我們做大模型,其實跟量化和金融都沒有直接關(guān)系,”被媒體問及為什么一家量化基金選擇入局大模型時,梁文鋒解釋道,“當時我們嘗試了很多場景,最終切入了足夠復(fù)雜的金融,而通用人工智能可能是下一個最難的事之一,所以對我們來說,這是一個怎么做的問題,而不是為什么做的問題。”
公開資料顯示,梁文鋒是一個極致的80后技術(shù)理想主義者,從幻方時代,就在幕后潛心研究技術(shù),在DeepSeek時代,依舊延續(xù)著他的低調(diào)作風,和所有研究員一樣,每天“看論文,寫代碼,參與小組討論”。值得一提是,這家公司還曾對外招聘文科人才,職位定位為“數(shù)據(jù)百曉生”,提供人類歷史、文化、科學(xué)等相關(guān)的知識來源,和數(shù)據(jù)工程師一起構(gòu)建完善的世界語言知識庫。
“我們相信幾乎所有的創(chuàng)新都是從大膽嘗試和點滴積累中孕育而來。我們將充分而持續(xù)地投入,不做中庸的事,用最長期的眼光去回答最大的問題。”梁文鋒曾表示。
在接受媒體《暗涌》的采訪時,梁文鋒表示,降價一方面是因為在探索下一代模型的結(jié)構(gòu)中,成本先降下來了,另一方面也覺得無論API,還是AI,都應(yīng)該是普惠的、人人可以用得起的東西。
“過去很多年,中國公司習(xí)慣了別人做技術(shù)創(chuàng)新,我們拿過來做應(yīng)用變現(xiàn),但這并非是一種理所當然。這一波浪潮里,我們的出發(fā)點,就不是趁機賺一筆,而是走到技術(shù)的前沿,去推動整個生態(tài)發(fā)展。”梁文鋒稱。