2025年春節(jié)期間,DeepSeek爆火出圈,發(fā)布開源大模型,在數(shù)學(xué)、代碼、自然語言推理等任務(wù)上表現(xiàn)追平OpenAI,在美國對我國AI產(chǎn)業(yè)鏈全方位打壓遏制的背景下,成功走出了一條低成本、高性能、國產(chǎn)化“突圍之路”并震驚世界,為加速國產(chǎn)AI大模型降本提效、生態(tài)繁榮注入了強(qiáng)大動力。
出圈情況
DeepSeek憑借“低成本+高性能”模型全球破圈。DeepSeek早前發(fā)布的V3模型每訓(xùn)練1萬億tokens僅需在2048塊H800 GPU集群上耗時(shí)3.7天,總計(jì)278萬 GPU小時(shí)、557.6萬美元的訓(xùn)練成本,約為GPT-o1的1/20、Llama 3.1的1/10。
新發(fā)布的R1模型API服務(wù)價(jià)格為每百萬輸入tokens 1-4元、每百萬輸出tokens 16元,遠(yuǎn)低于同期 OpenAI o1 API定價(jià)水平,且在邏輯、數(shù)學(xué)及中文任務(wù)中表現(xiàn)優(yōu)異。DeepSeek應(yīng)用程序霸榜蘋果應(yīng)用商店第一名,獲全球主流公有云公司平臺接入。
成功原因
DeepSeek通過較少算力實(shí)現(xiàn)高性能模型表現(xiàn),主要通過算法創(chuàng)新和工程優(yōu)化等方式大幅提升模型效率。一是成功走通“純”強(qiáng)化學(xué)習(xí)(RL)路徑。DeepSeek-R1拋開以預(yù)設(shè)思維鏈模板和監(jiān)督式微調(diào)等為特點(diǎn)的AI推理能力傳統(tǒng)訓(xùn)練方法,僅依靠簡單的獎懲信號來指導(dǎo)優(yōu)化模型行為,不僅省去了SFT和復(fù)雜的獎懲模型對計(jì)算資源的需求,還促使模型以“頓悟”的形式學(xué)會思考。二是實(shí)現(xiàn)算法、框架和硬件的優(yōu)化協(xié)同。為大幅減少內(nèi)存占用和計(jì)算量,DeepSeek系列模型在算法層面引入專家混合模型、多頭隱式注意力、多token預(yù)測,框架層面實(shí)現(xiàn)FP8混合精度訓(xùn)練,硬件層面采用優(yōu)化的流水線并行策略,同時(shí)高效配置專家分發(fā)與跨節(jié)點(diǎn)通信,實(shí)現(xiàn)最優(yōu)效率配置和資源節(jié)約。
DeepSeek具有擁抱AI的創(chuàng)始基因豐富的算力資源儲備、極具天賦的本土人才團(tuán)隊(duì)。一是自帶AI創(chuàng)始基因。創(chuàng)始人梁文鋒畢業(yè)于浙江大學(xué)電子信息工程和計(jì)算機(jī)科學(xué)專業(yè),早年創(chuàng)立對沖基金“幻方量化”,實(shí)現(xiàn)投資策略全面AI化,2023年5月成立深度求索,聚焦發(fā)展通用人工智能。二是豐富的算力資源儲備;梅搅炕顿Y超過10億元,先后研發(fā)了AI超級計(jì)算機(jī)“螢火一號”和“螢火二號”。其中,“螢火二號”搭載了約1萬張英偉達(dá)A100顯卡。三是極具天賦的本土人才團(tuán)隊(duì)。DeepSeek團(tuán)隊(duì)工程師和研發(fā)人員幾乎都來自清華大學(xué)、北京大學(xué)、中山大學(xué)、北京郵電大學(xué)等國內(nèi)頂尖高校,鮮有“海歸”,以走出校園不久的博士為主,也有部分成員有英偉達(dá)、微軟等國外企業(yè)工作或?qū)嵙?xí)經(jīng)歷。
產(chǎn)業(yè)影響
一是DeepSeek打破大模型發(fā)展路徑依賴,基本確立了符合中國實(shí)際的AI發(fā)展道路。DeepSeek 打破了 AI 大模型發(fā)展對算力和標(biāo)注數(shù)據(jù)的高度依賴,展示了通過改進(jìn)模型架構(gòu)和訓(xùn)練方法,以較少的數(shù)據(jù)標(biāo)注量和算力消耗提升模型推理能力的可行性,標(biāo)志著我國在硬件上長期存在代際差距的情況下,可采取軟硬協(xié)同方式實(shí)現(xiàn)對海外頂尖大模型的性能追趕和成本領(lǐng)先。
二是DeepSeek提升行業(yè)對模型的后訓(xùn)練和推理需求,長期提振算力需求。DeepSeek R1在 V3 的基礎(chǔ)上進(jìn)行了兩次強(qiáng)化學(xué)習(xí),明顯提升了訓(xùn)練的探索時(shí)間和推理思考時(shí)間,將在后訓(xùn)練階段延續(xù)Scaling Law法則。隨著高性能低成本模型的出現(xiàn)將大幅降低國內(nèi)AI賦能千行百業(yè)的應(yīng)用開發(fā)門檻,推動AI產(chǎn)業(yè)鏈從“訓(xùn)練驅(qū)動”向“推理驅(qū)動”轉(zhuǎn)變,帶動推理算力需求加速釋放。
三是DeepSeek以模型開源推動AI平權(quán),開源路線有望打造應(yīng)用繁榮的“安卓時(shí)刻”。DeepSeek完全開源了模型權(quán)重,允許其他開發(fā)者將模型用于商業(yè)用途并進(jìn)行模型蒸餾。已發(fā)布了基于R1蒸餾Llama與Qwen的6個(gè)小模型,在多項(xiàng)基礎(chǔ)測試集中性能對標(biāo) o1-mini,被Facebook首席人工智能科學(xué)家楊立昆譽(yù)為“開源模型對閉源模型的勝利”。開源模型通過知識蒸餾快速打造高性能、輕量化小模型,將驅(qū)動端側(cè)模型在手機(jī)、電腦、眼鏡等智能硬件上的部署應(yīng)用,形成AI應(yīng)用百花齊放的格局。