DeepSeek核心人才真的在流失吗?27篇论文里藏着答案

ChatGPT生成

外界传闻很难站住脚跟,与此相反,它正在成为一个核心稳定、持续扩张、长期协作的中国本土前沿AI研究团队

文|《财经》研究员 吴俊宇 

5月7日有消息称,“国家队”背景相关基金将领投它的首轮融资,DeepSeek投后估值或将达到450亿美元。不过,这一消息目前尚未证实,DeepSeek也没有进行公开回应。

由于尚未大规模商业化,DeepSeek目前很难用营收、利润进行估值。它现阶段真正价值在于高人才密度团队,以及这个团队持续迭代全球领先模型的能力。

过去一年,市场上流传着大量关于DeepSeek人才流失的传言——被高薪挖角,核心研究员陆续离开。这支团队的真实情况影响它估值的核心前提之一。

DeepSeek几乎是中国最特殊的基础模型公司。它的研究员几乎从不公开露面。DeepSeek创始人梁文锋2024年7月接受36氪暗涌Waves采访后,两年没再公开发声。

但与此同时,DeepSeek持续以稳定的频率发布基础模型和技术论文

2024年1月25日至2026年4月26日的27个月,DeepSeek至少公开发布了27篇技术论文,迭代出DeepSeek LLM、DeepSeek-V2、DeepSeek-V3、DeepSeek-R1、DeepSeek-V3.2、DeepSeek-V4等6款具备里程碑意义的基础模型。

过去一年,围绕DeepSeek的讨论很多。包括但不限于:团队规模究竟有多研究能力是否可持续是否被大厂高薪持续挖角核心人才是否流失

这些问题,DeepSeek几乎从未正面回应。DeepSeek仅在DeepSeek-V4发布时,在官方推文中用“不诱于誉,不恐于诽,率道而行,端然正己”这段文字侧面回应了外界疑问。

《财经》试图从另一条路径观察这家沉默的公司——梳DeepSeek2024年1月25日2026年4月26日公开发布27篇论文AI开源社区Hugging Face上公布的26篇论文,以及近期发布的DeepSeek-V4论文)作者/贡献者名单,对其研究团队规模、核心成员稳定性与人才流动情况进行交叉统计与分析。

《财经》基于27篇论文作者/贡献者以及“*”标注的离职信息,并借助CodexOpenAI旗下的AI代码工具)进行数据统计、交叉去重和反复校验(仅严格保留DeepSeek内部作者/贡献者的名单,剔除论文中外部高校/机构作者,剔除致谢名单的作者)发现:

其一,DeepSeek研究团队这两年多在持续扩张。2024年1月DeepSeek LLM发布时至少有86人,2025年1月DeepSeek-R1发布时至少有194人,2026年4月末DeepSeek-V4发布时至少有317人(含研究和工程、商业和合规团队名单,剔除致谢名单)。

其二,DeepSeek的核心研究团队保持着高稳定性DeepSeek27篇论文中出现频率最高的15个人,仅有2人离职。DeepSeek LLM发布时的86人,仍有71位出现在DeepSeek-V4论文的名单中。DeepSeek-R1发布时的194人,仍有143位出现在DeepSeek-V4论文名单中。

其三,DeepSeek人才流失率并不高。27篇论文累计出现的391位作者,明确标注“*”离职人数25人,占比6.4%。离职的代表性人物仍活跃在中国大模型一线。罗福莉是小米Mimo团队负责人,郭达雅加入字节跳动Seed实验室,阮翀成为元戎启行首席科学家,王炳宣加入了腾讯混元团队。

27个月,27篇论文,391位研究员,25人离职。这是DeepSeek留给外界最清晰的数字

DeepSeek团队仍在不断扩张

在基础模型领域,人才甚至是比算力、数据更稀缺的资源。真正决定模型能力上限的,往往不只是芯片数量或数据规模,是一支能够长期稳定协作的研究团队。

包括字节跳动、阿里、腾讯等公司正在从OpenAI、Anthropic、谷歌Gemini等国际知名模型团队高价挖人。在国际市场,Meta甚至开出4年2亿-3亿美元的天价合同包挖角其他公司的顶尖研究员,总包薪酬甚至高过全球身价最高的足球明星姆巴佩、亚马尔。

因为,大模型研发并非是清晰的、按部就班的工程任务,更像是在无人区中探索。这高度依赖创造力。在这个过程中,组建高人才密度的团队才是关键。

《财经》了解到,以中国市场为例,各公司大模型研发团队通常由预训练、后训练、数据等团队组成。其中最核心的预训练、后训练团队规模通常仅为200人左右。模型训练团队甚至还会分成语言、代码、视觉、视频等不同研究方向,每个方向都有一个小团队。

一位中国基础模型明星创业公司人士对《财经》表示,大模型团队常见的组织模式是,由一两个顶尖AI科学家带领二三十个有活力、有想法的年轻研究员探索一个技术方向。公司要为他们提供充足的算力、宽松的环境,让他们验证各种新想法。

一位算法工程师对《财经》表示,大模型领域的知识迭代以月甚至周为单位。年轻的研究员不会受到旧知识体系的束缚,他们的学习研究一开始就基于最新的范式。最年轻的头脑往往最有创造力,这和足球运动员在20岁、30岁出头时体能、爆发力达到巅峰类似。

DeepSeek的主要人才来自北京大学、清华大学、浙江大学等中国本土知名高校的计算机系。那么,它的团队是如何逐渐扩张的?

《财经》选取了6款里程碑意义基础模型的论文名单,观察DeepSeek研究团队的扩张节奏——DeepSeek在27个月内,从不到100人扩张到了300多人。

2024年1月25日DeepSeek-LLM发布时有86位作者,2024年5月7日DeepSeek-V2发布时有156位作者,2024年12月26日DeepSeek-V3发布时有197位作者,2025年1月22日DeepSeek-R1发布时有194位作者,2025年12月1日DeepSeek-V3.2发布时有262位作者。2026年4月26日DeepSeek-V4发布时一共有317位作者。

DeepSeek的团队规模在国内甚至已经不算小了。DeepSeek 27篇论文的累计作者总数(跨论文去重且剔除外部机构)达到了391人。横向对比字节跳动Seed、阿里Qwen、月之暗面在Hugging Face主页上所有论文的累计作者总数会发现,字节跳动Seed是967人、阿里Qwen是352人、月之暗面是387人。

从论文累计作者人数可以侧面看到,它虽然人数远比字节跳动Seed团队要少,但对比其他模型公司仍然略多。

一支模型研究团队的价值,最终不仅体现模型性能和论文数量,还体现在模型是否真正形成持续的开发者使用习惯与市场影响力。上述算法工程师对《财经》表示,论文数量、团队人数也许可以反映研发投入强度但却不一定能完全代表研发水平

DeepSeek的研究团队在开发者群体中的影响力甚至不逊色于其他公司。Token调用规模可以侧面反映这个问题。

和其他模型往往靠发布后一个月的热度短期冲榜不同,DeepSeek形成稳定的开发者使用习惯与真实推理需求。全球模型聚合平台OpenRouter数据显示,近一年(2025年5月4日-2026年5月4日)DeepSeek在只有四款旗舰模型(DeepSeek-V3、R1、V3.2V4)的情况下,Token调用量占比一直在5%-20%之间,调用量排名长期位居全球前六。

过去一年,虽然阿里Qwen、腾讯混元、小米Mimo、月之暗面Kimi、智谱GLM、MiniMax等国内模型都曾在一段时间内进入OpenRouter调用量前列,但多数模型的调用占比往往会随着市场热点变化快速波动。相比之下,DeepSeek的模型更新虽然但生命周期

核心研究团队仍然稳定

2026年,基础模型的竞争变得比过去三年还要激烈。

据《财经》不完全统计,2025年12月1日-2026年4月24日,美国市场(OpenAI、Anthropic、谷歌Gemini)和中国(包括阿里千问、字节跳动豆包、腾讯混元、小米MiMo、DeepSeek、月之暗面、智谱、MiniMax)的11家主流模型公司,在144天内至少发布或迭代了53款模型,几乎每2.7天就会有一款模型发布或迭代。

随着市场竞争烈度上升,人才的流动速度也在变快,巨头频频开出高薪挖角竞争对手的研究员。研究团队能否长期稳定协作,已经成为影响模型研发的重要变量。

梁文锋接受36氪暗涌Waves团队采访时提到过DeepSeek选人的标准——一直都是热爱和好奇心,所以很多人会有一些奇特的经历。很多人对做研究的渴望,远超对钱的在意。

在面对巨头高薪挖角的情况下,市场关心的一个问题是:DeepSeek这支研究团队,是否真的像外界传闻中那样频繁流失?答案是否定的。

《财经》采取了计算DeepSeek作者名单留存率的方式来进行观察。结果是,DeepSeek-LLM到DeepSeek-V3.2,DeepSeek不同时期模型团队的核心成员(剔除DeepSeek之外的其他高校或机构作者)作者名单留存率长期维持在70%-80%之间

作者名单留存率的计算方式是,DeepSeek某一模型研发时期论文作者中,后续仍持续出现在DeepSeek-V4作者名单且未被“*”标注为离职的人数占比。

需要强调的是,这种估算方式会低于真实在职率。因为,未被匹配到DeepSeek-V4作者的人,不一定已经离职,也可能转到其他岗位不再参与论文署名。以下留存率数据,应理解为可观测到的下限,而非精确在职率。

2024年1月25日DeepSeek-LLM86位作者,71位出现DeepSeek V4的作者名单中且仍然在职。DeepSeek的初始团队,作者留存率82.6%。

2024年5月7日DeepSeek-V2156位作者,有106位出现DeepSeek V4的作者名单中且仍然在职。DeepSeek-V2团队,作者留存率67.1%。

2024年12月26日DeepSeek-V3197位作者,有148位出现DeepSeek V4的作者名单中且仍然在职。DeepSeek-V3团队,作者留存率至少是75.1%。

2025年1月22日DeepSeek-R1194位作者,有143位出现DeepSeek V4的作者名单中且仍然在职。DeepSeek-R1团队,作者留存率至少是73.7%。

2025年12月1日DeepSeek-V3.2262位作者,有212出现DeepSeek V4的作者名单中且仍然在职。DeepSeek-V3.2团队,作者留存率至少是80.9%。

根据上述数据来看,DeepSeek-LLM时期的早期团队作者留存率依旧很高,但在DeepSeek-V3DeepSeek-R1之后的团队,作者留存率的确有所下滑。

上述中国基础模型明星创业公司人士对《财经》表示,DeepSeek的这一人才留存率数据在中国市场是较高水平。他所在的公司人才留存率略低于DeepSeek。

事实上,他所在的这家明星公司已经是一个理想主义气质很强的模型公司。在他看来,在巨头高薪挖角的环境下,现在愿意留在DeepSeek的研究员,往往是有追求的人。他所在的公司,也有被技术理想感召而去DeepSeek的研究员,但没有一个从DeepSeek过来的人。

美国风险投资公司SignalFire2025年5月根据全球职业社交平台LinkedIn上的跳槽记录统计了全球顶尖AI实验室的员工2023年-2024年的两年留存率。其中,Anthropic是80%,谷歌DeepMind是78%,OpenAI是67%,Cohere64%。

如果侧面参考SignalFire这一数据对比,DeepSeek的员工留存率和全球顶尖AI实验室相比,也属于正常甚至偏高的水平。

《财经》统计发现,DeepSeek的核心研究团队不仅始终保持了较高稳定性同一批核心研究员长期交叉参与了DeepSeek多个关键模型与研究方向的研发。

DeepSeek27篇论文中,出现频率最高的15个人,有13人目前仍然在职。且这些核心成员参与了DeepSeek LLM、DeepSeek-V2、DeepSeek-V3DeepSeek-R1、DeepSeek-V3.2、DeepSeek-V4等六款关键基础模型的研发。

研究团队稳定,这让DeepSeek很多技术研究是有延续性的。每一代模型,都站在前一代的工程和研究积累上出发进行创新

比如,DeepSeek-V2中验证的MLA(Multi-head Latent Attention,多头潜在注意力)推理架构和MoE设计,被V3和R1直接沿用;DeepSeekMath中提出的GRPO群体相对策略优化强化学习算法,先被R1用于推理能力训练,后又被V4的数学方向训练直接采纳。

除此之外,DeepSeek核心研究团队长期在不同模型与研究方向之间交叉协作。他们并不像很多大型科技公司那样,将不同技术方向完全拆分为独立研发体系。

论文名单显示,同时参与了Coder(代码生成)VL视觉理解)MoE(混合专家架构)Math(数学计算)OCR光学字符识别)等至少三个不同技术方向的在职研究员至少有24人。这24个人全部都是DeepSeek-LLM阶段就已经加入了DeepSeek。

一位基础模型工程师曾对《财经》表示,基础模型训练过程中,很多真正关键的能力,并不会完全写进论文。它们会逐渐沉淀为研究团队内部的工程经验、训练直觉与跨方向协同能力。这些东西,往往需要一支长期稳定协作的研究团队,才能慢慢形成。

这也是DeepSeek研究团队和其他公司不同的地方。

DeepSeek离职的人去哪儿了

市场上长期关注的一个问题是,DeepSeek的离职员工到底去了哪儿?

DeepSeek论文中明确用“*”号标注离职的人有25人。他们出现在DeepSeek-V3DeepSeek-R1、DeepSeek-V3.2、DeepSeek-V4这四篇论文中。

离开DeepSeek的研究员大部分并未离开基础模型行业。他们中的不少人,已经加入字节跳动、小米、腾讯等公司的模型核心团队,甚至开始独立负责新的研究方向。DeepSeek甚至为中国的大模型研究培养了一批具备带队能力的人才。

《财经》通过他们的个人学术主页、领英以及X(前Twitter)等公开渠道验证了12个研究员的动向。其中至少有4位进入了字节跳动、腾讯、小米等公司担任核心负责人。

Fuli Luo(罗福莉)2025年加入小米担任小米Mimo实验室负责人。她主导研究的MiMo-V2系列模型Token消耗量一度OpenRouter平台今年3月的周榜中位列第一

Bingxuan Wang(王炳宣)2025年末加入腾讯混元团队。

Daya Guo(郭达雅)2026年加入字节跳动Seed实验室担任Agent(智能体)负责人之一

Chong Ruan(阮翀)2026年加入智能驾驶公司元戎启行任首席科学家,主导基座模型开发

其他离开DeepSeek的7位研究员仍然活跃在大模型研究的一线,他们正在就读更高学位,同时还在其他大型科技公司继续担任学生研究员。目前主流的模型公司都会设置学生研究员岗位。

他们之中至少有3位目前或曾经在字节跳动Seed团队担任学生研究员,其中包括Haocheng Wang王浩丞)、Huajian Xin(辛华剑)Jiawei Wang王家伟)。

Wanjia Zhao(赵万佳)2024年离开DeepSeek后,先后进入微软研究院雷德蒙德实验室与谷歌DeepMind担任学生研究员,目前仍在斯坦福大学攻读计算机科学博士。

综上来看,DeepSeek人才流失的说法至少目前不能成立,尚属于正常流动范围。

仍然是一个核心团队稳定、规模持续扩张、能够稳定产出领先模型的中国本土研究团队它甚至还在不断为其他中国模型公司输送有带队能力的人才。

DeepSeek创造的研究环境是中国市场稀缺的,这是它具备竞争力的关键因素。DeepSeek真正特殊的地方,不只是训练出了DeepSeek-R1、DeepSeek-V4这些模型正在证明——中国本土AI研究团队,可以通过团队长期稳定协作的方式,持续参与全球前沿基础模型竞争。

27个月,27篇论文,391位研究员,25人离职。这是DeepSeek留给外界最清晰的一份答卷。

上一篇:阶跃星辰将完成近25亿美元融资,或加速冲刺港股IPO
下一篇:515投资者保护|“长情相伴 共赴财富远方”国泰基金投资者教育工作实践:构建多元化、场景化、常态化投教生态
免责声明:

1、本网站所展示的内容均转载自网络其他平台,主要用于个人学习、研究或者信息传播的目的;所提供的信息仅供参考,并不意味着本站赞同其观点或其内容的真实性已得到证实;阅读者务请自行核实信息的真实性,风险自负。

2、如因作品内容、版权和其他问题请与本站管理员联系,我们将在收到通知后的3个工作日内进行处理。