首頁|必讀|視頻|專訪|運(yùn)營|制造|監(jiān)管|大數(shù)據(jù)|物聯(lián)網(wǎng)|量子|低空經(jīng)濟(jì)|智能汽車|特約記者
手機(jī)|互聯(lián)網(wǎng)|IT|5G|光通信|人工智能|云計(jì)算|芯片|報(bào)告|智慧城市|移動互聯(lián)網(wǎng)|會展
首頁 >> 人工智能 >> 正文

智庫觀點(diǎn):解碼DeepSeek

2025年2月10日 07:35  中移智庫  

2025年春節(jié)期間,DeepSeek爆火出圈,發(fā)布開源大模型,在數(shù)學(xué)、代碼、自然語言推理等任務(wù)上表現(xiàn)追平OpenAI,在美國對我國AI產(chǎn)業(yè)鏈全方位打壓遏制的背景下,成功走出了一條低成本、高性能、國產(chǎn)化“突圍之路”并震驚世界,為加速國產(chǎn)AI大模型降本提效、生態(tài)繁榮注入了強(qiáng)大動力。

出圈情況

DeepSeek憑借“低成本+高性能”模型全球破圈。DeepSeek早前發(fā)布的V3模型每訓(xùn)練1萬億tokens僅需在2048塊H800 GPU集群上耗時(shí)3.7天,總計(jì)278萬 GPU小時(shí)、557.6萬美元的訓(xùn)練成本,約為GPT-o1的1/20、Llama 3.1的1/10。

新發(fā)布的R1模型API服務(wù)價(jià)格為每百萬輸入tokens 1-4元、每百萬輸出tokens 16元,遠(yuǎn)低于同期 OpenAI o1 API定價(jià)水平,且在邏輯、數(shù)學(xué)及中文任務(wù)中表現(xiàn)優(yōu)異。DeepSeek應(yīng)用程序霸榜蘋果應(yīng)用商店第一名,獲全球主流公有云公司平臺接入。

成功原因

DeepSeek通過較少算力實(shí)現(xiàn)高性能模型表現(xiàn),主要通過算法創(chuàng)新和工程優(yōu)化等方式大幅提升模型效率。一是成功走通“純”強(qiáng)化學(xué)習(xí)(RL)路徑。DeepSeek-R1拋開以預(yù)設(shè)思維鏈模板和監(jiān)督式微調(diào)等為特點(diǎn)的AI推理能力傳統(tǒng)訓(xùn)練方法,僅依靠簡單的獎懲信號來指導(dǎo)優(yōu)化模型行為,不僅省去了SFT和復(fù)雜的獎懲模型對計(jì)算資源的需求,還促使模型以“頓悟”的形式學(xué)會思考。二是實(shí)現(xiàn)算法、框架和硬件的優(yōu)化協(xié)同。為大幅減少內(nèi)存占用和計(jì)算量,DeepSeek系列模型在算法層面引入專家混合模型、多頭隱式注意力、多token預(yù)測,框架層面實(shí)現(xiàn)FP8混合精度訓(xùn)練,硬件層面采用優(yōu)化的流水線并行策略,同時(shí)高效配置專家分發(fā)與跨節(jié)點(diǎn)通信,實(shí)現(xiàn)最優(yōu)效率配置和資源節(jié)約。

DeepSeek具有擁抱AI的創(chuàng)始基因豐富的算力資源儲備、極具天賦的本土人才團(tuán)隊(duì)。一是自帶AI創(chuàng)始基因。創(chuàng)始人梁文鋒畢業(yè)于浙江大學(xué)電子信息工程和計(jì)算機(jī)科學(xué)專業(yè),早年創(chuàng)立對沖基金“幻方量化”,實(shí)現(xiàn)投資策略全面AI化,2023年5月成立深度求索,聚焦發(fā)展通用人工智能。二是豐富的算力資源儲備;梅搅炕顿Y超過10億元,先后研發(fā)了AI超級計(jì)算機(jī)“螢火一號”和“螢火二號”。其中,“螢火二號”搭載了約1萬張英偉達(dá)A100顯卡。三是極具天賦的本土人才團(tuán)隊(duì)。DeepSeek團(tuán)隊(duì)工程師和研發(fā)人員幾乎都來自清華大學(xué)、北京大學(xué)、中山大學(xué)、北京郵電大學(xué)等國內(nèi)頂尖高校,鮮有“海歸”,以走出校園不久的博士為主,也有部分成員有英偉達(dá)、微軟等國外企業(yè)工作或?qū)嵙?xí)經(jīng)歷。

產(chǎn)業(yè)影響

一是DeepSeek打破大模型發(fā)展路徑依賴,基本確立了符合中國實(shí)際的AI發(fā)展道路。DeepSeek 打破了 AI 大模型發(fā)展對算力和標(biāo)注數(shù)據(jù)的高度依賴,展示了通過改進(jìn)模型架構(gòu)和訓(xùn)練方法,以較少的數(shù)據(jù)標(biāo)注量和算力消耗提升模型推理能力的可行性,標(biāo)志著我國在硬件上長期存在代際差距的情況下,可采取軟硬協(xié)同方式實(shí)現(xiàn)對海外頂尖大模型的性能追趕和成本領(lǐng)先。

二是DeepSeek提升行業(yè)對模型的后訓(xùn)練和推理需求,長期提振算力需求。DeepSeek R1在 V3 的基礎(chǔ)上進(jìn)行了兩次強(qiáng)化學(xué)習(xí),明顯提升了訓(xùn)練的探索時(shí)間和推理思考時(shí)間,將在后訓(xùn)練階段延續(xù)Scaling Law法則。隨著高性能低成本模型的出現(xiàn)將大幅降低國內(nèi)AI賦能千行百業(yè)的應(yīng)用開發(fā)門檻,推動AI產(chǎn)業(yè)鏈從“訓(xùn)練驅(qū)動”向“推理驅(qū)動”轉(zhuǎn)變,帶動推理算力需求加速釋放。

三是DeepSeek以模型開源推動AI平權(quán),開源路線有望打造應(yīng)用繁榮的“安卓時(shí)刻”。DeepSeek完全開源了模型權(quán)重,允許其他開發(fā)者將模型用于商業(yè)用途并進(jìn)行模型蒸餾。已發(fā)布了基于R1蒸餾Llama與Qwen的6個(gè)小模型,在多項(xiàng)基礎(chǔ)測試集中性能對標(biāo) o1-mini,被Facebook首席人工智能科學(xué)家楊立昆譽(yù)為“開源模型對閉源模型的勝利”。開源模型通過知識蒸餾快速打造高性能、輕量化小模型,將驅(qū)動端側(cè)模型在手機(jī)、電腦、眼鏡等智能硬件上的部署應(yīng)用,形成AI應(yīng)用百花齊放的格局。

編 輯:高靖宇
飛象網(wǎng)版權(quán)及免責(zé)聲明:
1.本網(wǎng)刊載內(nèi)容,凡注明來源為“飛象網(wǎng)”和“飛象原創(chuàng)”皆屬飛象網(wǎng)版權(quán)所有,未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像,違者必究。對于經(jīng)過授權(quán)可以轉(zhuǎn)載,請必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標(biāo)注作者信息和飛象網(wǎng)來源。
2.凡注明“來源:XXXX”的作品,均轉(zhuǎn)載自其它媒體,在于傳播更多行業(yè)信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對其真實(shí)性負(fù)責(zé)。
3.如因作品內(nèi)容、版權(quán)和其它問題,請?jiān)谙嚓P(guān)作品刊發(fā)之日起30日內(nèi)與本網(wǎng)聯(lián)系,我們將第一時(shí)間予以處理。
本站聯(lián)系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯(lián)系方式,進(jìn)行的“內(nèi)容核實(shí)”、“商務(wù)聯(lián)系”等行為,均不能代表本站。本站擁有對此聲明的最終解釋權(quán)。
相關(guān)新聞              
 
人物
vivo胡柏山:手機(jī)行業(yè)是最典型的新質(zhì)生產(chǎn)力代表
精彩專題
2024通信業(yè)年終盤點(diǎn)
2024數(shù)字科技生態(tài)大會
2024年度中國光電纜優(yōu)質(zhì)供應(yīng)商評選活動
2024全球6G發(fā)展大會
CCTIME推薦
關(guān)于我們 | 廣告報(bào)價(jià) | 聯(lián)系我們 | 隱私聲明 | 本站地圖
CCTIME飛象網(wǎng) CopyRight © 2007-2024 By CCTIME.COM
京ICP備08004280號-1  電信與信息服務(wù)業(yè)務(wù)經(jīng)營許可證080234號 京公網(wǎng)安備110105000771號
公司名稱: 北京飛象互動文化傳媒有限公司
未經(jīng)書面許可,禁止轉(zhuǎn)載、摘編、復(fù)制、鏡像