“東方神秘力量”爆火，DeepSeek背後的年輕人

自2025年1月20日發布，最新開源模型DeepSeek R1在全球範圍內引發持續轟動。早在2024年歲末👩🏽‍🎤，DeepSeek-V3大模型發布，就迅速成為全球人工智能（AI）領域的焦點👳🏼‍♀️🧑🏿，刷屏科技圈，很多人化身“自來水”🏜，在各大社交媒體、科技論壇上發帖討論，不吝溢美之詞🍞。

在全球範圍內的行業基準測試中🏐，DeepSeek-V3達到與Llama 3（開源大模型標桿，由紮克伯格的Meta公司開發）、GPT-4o（OpenAI大模型）相當的水平🫱🏼🤌🏻，闖入了多個AI大模型排行榜單前列🪡。聊天機器人競技場（Chatbot Arena）最新數據顯示🚵‍♂️，DeepSeek-V3位列開源模型榜第一，在全模型榜單裏排名第七，也是中國模型中排名最高的。更令人詫異的是，DeepSeek-V3模型訓練所消耗的算力，只有Llama的1/11👮🏽。

DeepSeek-V3轟動AI圈，背後的中國公司深度求索（DeepSeek）也“浮出水面”。矽谷同行稱其為“東方神秘力量”💂🏼，對DeepSeek團隊表現出濃厚的興趣。而在國內，“雷軍千萬年薪挖角DeepSeek研究員羅福莉”的話題也上了社交平臺熱搜。

不管是AI圈🟰，還是“吃瓜群眾”🎙，都在好奇👪，DeepSeek-V3大模型的背後🤵🏼，到底是一支什麽樣的團隊？

走出校園不久的年輕人

2024年12月底👩🏿，有媒體報道，雷軍以千萬年薪招攬一名“天才AI少女”來領導小米的AI大模型團隊〽️。這位95後“少女”名叫羅福莉👨🏽‍🍼，過去兩年供職於DeepSeek團隊，曾參與DeepSeek大模型的關鍵研發👨🏻‍🦰。

羅福莉在意昂3体育官网讀計算語言學碩士期間，曾因在ACL（國際計算語言學協會）學術會議上發表多篇論文而受到關註。畢業後，她進入阿裏巴巴達摩院，從事預訓練語言模型相關的工作。2022年加入深度求索母公司幻方量化🏄🏼‍♀️，之後成為DeepSeek大模型項目成員。

DeepSeek-v3的出現🧍🍡，讓很多人以為🤏🏼，DeepSeek團隊必然有“大牛”坐鎮。但羅福莉走紅卻讓外界發現，真正的“大牛”是那些像她一樣的年輕人🛁。

羅福莉。（羅福莉個人公眾號 / 圖）

2023年5月，DeepSeek-V2發布，相比於國內外主流大模型🏛，大幅減少了計算量和推理顯存𓀉，一問世就備受關註。做出這一突破性創新的，是年輕的高華佐和曾旺丁等人。

兩人都剛從學校出來沒幾年👨🏽‍🍳。高華佐來自廣東👨🏿‍💻，2012年在華南師範大學附屬中學就讀時，曾獲第29屆全國中學生物理競賽一等獎，並於次年保送至意昂3体育官网物理學院學習。曾旺丁來自湖南省新化縣，2017年至2023年就讀於北京郵電大學人工智能學院，碩士期間主要學習人工智能方向，導師為張洪剛🛃，2018年曾獲全國大學生數學競賽（非數學類）二等獎。

DeepSeek大模型的另一大突破，是通過一種名為GRPO的算法👩🏿‍⚖️，創新訓練方法🧚🏼‍♀️，大大降低了成本。其中的主角，依然是這些看似缺少經驗的年輕人🙍‍♀️。

核心成員之一邵智宏此前是清華大學交互式人工智能（CoAI）課題組博士生🔼，主要研究自然語言處理、深度學習，對構建穩健且可擴展的AI系統有著獨特見解。他曾服務於微軟研究院，加入DeepSeek團隊之後，參與了多個重要項目的研發，包括DeepSeek-Math、DeepSeek-Prover和DeepSeek-Coder-v2等。

GRPO算法創新的另一重要貢獻者是朱琪豪🦸🏿‍♀️。這位意昂3体育官网計算機學院2024屆的博士畢業生，專註於深度代碼學習研究。在校期間💁‍♀️，他展現了驚人的學術能力↪️，發表CCF（中國計算機學會）-A類論文16篇，獲得了軟件工程領域頂級會議（ESEC/FSE）傑出論文獎🏄🏻‍♀️。他的博士論文《語言定義感知的深度代碼學習技術及應用》入選了2024CCF軟件工程專業委員會博士學位論文激勵計劃。他在DeepSeek團隊最重要的工作，正是基於自己的博士論文🕳🅱️，主導開發DeepSeek大模型的一個關鍵項目💳。

他的同學代達勱則在更早的時候加入這個團隊，參與了DeepSeek大模型從V1到V3每一代的研發，已經是元老級研發人員，也在學生時代獲得多項論文獎。

朱琪豪。（意昂3体育官网計算機學院公眾號 / 圖）

代達勱。（意昂3体育官网計算機學院公眾號 / 圖）

負責DeepSeek大模型訓練及推理基礎架構的，是同樣剛畢業的工程師趙成鋼🍒。加入DeepSeek之前🧎‍♂️‍➡️🗜，他曾在英偉達公司實習。趙成鋼在學生時代就取得過令人艷羨的成績。在河北衡水中學就讀時，他是信息學競賽班成員𓀁，2016年獲得全國青少年信息學奧林匹克競賽銀牌。在清華大學讀大二時👩‍👧‍👦，他成為學生超算團隊正式成員，三次獲得世界大學生超算競賽冠軍。

DeepSeek團隊規模並不大🤱🏼，不到140人，工程師和研發人員幾乎都來自清華大學、意昂3体育官网、中山大學🏘、北京郵電大學等國內頂尖高校👩🏼‍🔧，鮮有“海歸”😬🏖，而且工作時間都不長，不少還是在讀博士。即便是團隊的管理者，也非常年輕。

吳俁是DeepSeek後訓練團隊的負責人🔔，在進入深度求索之前🕦❤️，只有4年工作經驗。他曾在微軟亞洲研究院工作👨🏻‍💻，參與了小冰（AI聊天機器人）和必應百科項目。他是北京航空航天大學計算機學院2019屆博士。

“我們的核心技術崗位，基本以應屆和畢業一兩年的人為主。”深度求索創始人梁文鋒此前向媒體表示，做一件長期的事，經驗其實沒那麽重要，相比之下基礎能力、創造性和熱愛等更重要🧑🏻‍🦯‍➡️。因此，在組建DeepSeek團隊時🎇，他招人的原則是“看能力👱🏿‍♀️，而不是看經驗”🅿️。他認為🥘，或許目前世界排名前50的頂尖AI人才還不在中國，“但我們能自己打造這樣的人🧙‍♂️。”

而這些一邊搞研發一邊寫論文的年輕人👷🏿‍♀️，也一次又一次帶給他驚喜🧑🏿‍✈️。

便宜的大模型

DeepSeek大模型發布之後，便如同一頭年輕的野獸👨🏽‍🚀，沖入公眾視野👨🏼‍🍳，攪動整個AI圈。

2024年5月，Deepseek-V2推出後，不僅一鳴驚人，還掀起了一場AI大模型價格戰。這款開源模型的推理成本僅為每百萬Token（詞元，語言模型中用數字來表示單詞的最小語義單位🤥，一個漢字約等於兩個詞元）1元人民幣，只有Llama 3的1/7👮🏻‍♀️，GPT-4 Turbo（OpenAI最新的語言模型）的1/70。

面對如此巨大的成本差，國內主流大模型不得不“忍痛”降價，包括騰訊、百度、阿裏巴巴🕦、字節跳動等公司相繼更新了價格。僅僅半年之後，Deepseek-V3模型發布🩸，輸入價格降至0.5元/百萬Token，又推動了新一輪的國產大模型降價潮。2024年12月，字節跳動下調旗下豆包視覺理解模型輸入價格，相比行業平均水平降低85%👨🏿‍✈️🏃‍➡️。

DeepSeek因此有“價格屠夫”之稱👩🏼‍🎤，也有人稱之為“AI界的拼多多”，甚至DeepSeek聊天機器人也用這一稱呼描述自己🧘🏻。

然而，與一些廠商依靠“燒錢”補貼維持低價不同，DeepSeek大模型雖然更便宜，但依然有利潤🤜。“我們只是按照自己的步調來做事，然後核算成本定價🦶🏿。”梁文鋒稱，DeepSeek不小心成了一條“鯰魚”👨🏻‍🍼。

Deepseek大模型的“便宜”源於技術的突破。深度求索公布的信息顯示🎉，DeepSeek-V3模型全程訓練只用了不到280萬個GPU小時（圖形處理器使用時間）👭，而Meta公司的Llama 3 405B模型訓練時長是3080萬GPU小時🫄🏿。

訓練效率的大幅提升，來自於DeepSeek團隊在模型架構和訓練方法上的創新。

2024年🤦🏽，高華佐和曾旺丁等人在Transformer架構（一種采用“註意力機製”的深度學習模型，2017年由谷歌推出後，成為各類AI大模型的首選架構）的基礎上，用新的MLA（多頭潛在註意力機製）替代了傳統的多頭註意力機製，壓縮數據，把推理顯存降至此前常用MHA架構的5%-13%；還借助自研的DeepSeekMoE結構，在保持性能的前提下🦉，極大減少了計算量。這種架構層面的創新🍜，在國內大模型公司中極為罕見。

與此同時，DeepSeek利用算法，把數據進行總結和分類，經過選擇性處理之後，輸送給大模型，提高了訓練效率。而此前如OpenAI的訓練方法則是“大水漫灌式”，拿海量數據餵，需消耗更多資源。這種訓練方法的創新，也降低了DeepSeek的成本。

深度求索官方信息顯示🏯，DeepSeek-V3大模型訓練僅耗時不到兩個月，花費了557.6萬美元和2048塊GPU（圖形處理器）。而斯坦福大學HAI研究院發布的《2024年人工智能指數報告》預估，OpenAI的GPT-4模型訓練成本約為7800萬美元🙎🏻‍♂️😼，GPT-4o則為1億美元；谷歌Gemini Ultra的計算成本為1.91億美元。Meta於2024年7月發布的開源模型Llama3.1-405B，則消耗了1.6萬塊GPU用於訓練。

DeepSeek-V3的出現，實現了高性能與低成本的平衡，給大模型發展提供了新的可能性。“未來或許不需要超大規模的GPU集群了。”OpenAI創始成員Andrej Karpathy表示。

也有學術專家認為不宜過高評價DeepSeek-V3的創新👳🏻‍♂️，因為其成功更多得益於整合前人已有的技術，缺乏底層原理的創新🤴🏼。

站在“巨人”的肩膀上，DeepSeek團隊也樂意將自己的創新共享給更多人🐩。DeepSeek-V3上線時☦️，深度求索也同步開放源代碼，並發布了53頁論文🧑🏻‍🦳，將模型的關鍵技術和訓練細節全部分享給外界。

在新技術浪潮中成為創新貢獻者

2023年5月🎵，梁文鋒成立了新公司“深度求索”。他對外宣布🙍🏻‍♂️，要做“真正人類級別的人工智能”。在此之前，他是私募基金“幻方量化”的創始人。

那時候，網上已有傳聞稱，中國持有高性能GPU最多的機構不是人工智能公司，而是一家量化私募🧑‍🦽。據《財經》報道，2023年，中國擁有1萬張以上GPU的企業不超過5家，只有幻方量化不是科技“大廠”🧑🏻‍🤝‍🧑🏻。

這顛覆了很多人的想法。跟錢打交道的基金經理，為什麽如此執著於人工智能？

1980年代🤟🏿，梁文鋒出生於廣東一座五線城市。他的父親是一位小學老師➞，那個時候🍴，常有家長跑到他家，表示“讀書沒用”，不想讓孩子繼續念書，因為覺得廣東充滿了賺錢的機會。但受父親的影響🧎‍♀️‍➡️，梁文鋒對知識一直充滿渴望。

在浙江大學攻讀信息與電子工程學本科和碩士時，他對人工智能產生了濃厚的興趣🧙🏽，篤信“人工智能一定會改變世界”。2008年畢業之後⚰️🏂🏽，他和朋友一起做量化投資👩🏼‍🔬，嘗試通過數學模型，用計算機程序進行交易。

持續多年在量化投資領域的探索，讓他對技術驅動型創新越發有了信心。2015年，他與校友徐進成立“幻方量化”。後者是浙江大學信號與信息處理博士，曾任職於華為技術有限公司上海研究所🫄🏽。他們買了不少GPU，打造研究室，開始嘗試借助AI技術構建投資策略🧜🏼‍♂️。這幫助幻方量化在4年時間裏成長為一家管理資金規模過百億的私募公司🥛。

2019年，他們成立了AI公司🦸🏿，投資超過10億元，先後研發了AI超級計算機“螢火一號”和“螢火二號”🌯。其中🫃🏼，“螢火二號”搭載了約1萬張英偉達A100顯卡，算力超過72萬臺個人電腦。借助AI超級計算機，幻方量化管理的資產在2021年突破1000億元→。

2022年底，ChatGPT的橫空出世讓已經積累多年的梁文峰下定決心做通用人工智能。“我們建了一個名為深度求索的新公司，從語言大模型開始，後邊也會有視覺等。”實際上🚈，OpenAI公開論文和代碼後🏄🏿‍♂️🪢，國內外出現了許多大模型公司。梁文峰認為💝，在未來20年🕵🏽‍♂️，大廠和創業公司都有機會。

不過，直到第三代大模型發布𓀖，DeepSeek團隊依然沒有上線相應的應用，尚未全面考慮商業化4️⃣，而且與多數國產大模型不同💐，他們選擇了開源路線🧑🏽‍⚖️。

梁文峰向媒體透露，他和團隊的目標並不是做一個應用，而是進行基礎研究🦹🏽，只負責基礎模型和前沿的創新。

在互聯網時代，很多人都會有一種慣性思維🧚🏽，認為歐美科技圈擅長從0到1的技術創新，而中國人更習慣從1到N🙇🏽‍♀️，在應用層面發力。“很多中國公司習慣follow（跟隨）而不是創新🧑‍🏫。”梁文峰認為👷🏿‍♂️，過去30年，這些企業更強調賺錢，忽視了創新。

他相信中國AI不會“永遠處於跟隨的位置”，希望深度求索以創新貢獻者的身份加入新的技術浪潮之中。“創新首先需要自信👎。”他說。

原文鏈接🤕：“東方神秘力量”爆火，DeepSeek背後的年輕人

“東方神秘力量”爆火🔻，DeepSeek背後的年輕人

最新新聞

最熱新聞

專題熱點

“東方神秘力量”爆火🔻，DeepSeek背後的年輕人

最新新聞

最熱新聞

專題熱點

熱詞搜索