热点新闻

ChatGPT生成

外界传闻很难站住脚跟，与此相反，它正在成为一个核心稳定、持续扩张、长期协作的中国本土前沿AI研究团队

文｜《财经》研究员吴俊宇

5月7日有消息称，“国家队”背景相关基金将领投它的首轮融资，DeepSeek投后估值或将达到450亿美元。不过，这一消息目前尚未证实，DeepSeek也没有进行公开回应。

由于尚未大规模商业化，DeepSeek目前很难用营收、利润进行估值。它现阶段真正价值在于高人才密度团队，以及这个团队持续迭代全球领先模型的能力。

过去一年，市场上流传着大量关于DeepSeek人才流失的传言——被高薪挖角，核心研究员陆续离开。这支团队的真实情况是影响它估值的核心前提之一。

DeepSeek几乎是中国最特殊的基础模型公司。它的研究员几乎从不公开露面。DeepSeek创始人梁文锋2024年7月接受36氪暗涌Waves采访后，近两年没再公开发声。

但与此同时，DeepSeek持续以稳定的频率发布基础模型和技术论文。

2024年1月25日至2026年4月26日的27个月，DeepSeek至少公开发布了27篇技术论文，迭代出DeepSeek LLM、DeepSeek-V2、DeepSeek-V3、DeepSeek-R1、DeepSeek-V3.2、DeepSeek-V4等6款具备里程碑意义的基础模型。

过去一年，围绕DeepSeek的讨论很多。这包括但不限于：团队规模究竟有多大？研究能力是否可持续？是否被大厂高薪持续挖角？核心人才是否流失？

这些问题，DeepSeek几乎从未正面回应。DeepSeek仅在DeepSeek-V4发布时，在官方推文中用“不诱于誉，不恐于诽，率道而行，端然正己”这段文字侧面回应了外界疑问。

《财经》试图从另一条路径观察这家沉默的公司——梳理DeepSeek2024年1月25日至2026年4月26日公开发布的27篇论文（AI开源社区Hugging Face上公布的26篇论文，以及近期发布的DeepSeek-V4论文）的作者/贡献者名单，对其研究团队规模、核心成员稳定性与人才流动情况进行交叉统计与分析。

《财经》基于27篇论文作者/贡献者以及用“*”标注的离职信息，并借助Codex（OpenAI旗下的AI代码工具）进行数据统计、交叉去重和反复校验（仅严格保留DeepSeek内部作者/贡献者的名单，剔除论文中外部高校/机构作者，剔除致谢名单的作者）发现：

其一，DeepSeek研究团队这两年多在持续扩张。2024年1月DeepSeek LLM发布时至少有86人，2025年1月DeepSeek-R1发布时至少有194人，2026年4月末DeepSeek-V4发布时至少有317人（含研究和工程、商业和合规团队名单，剔除致谢名单）。

其二，DeepSeek的核心研究团队保持着高稳定性。DeepSeek27篇论文中出现频率最高的15个人，仅有2人离职。DeepSeek LLM发布时的86人，仍有71位出现在DeepSeek-V4论文的名单中。DeepSeek-R1发布时的194人，仍有143位出现在DeepSeek-V4论文名单中。

其三，DeepSeek人才流失率并不高。27篇论文累计出现的391位作者，明确标注“*”的离职人数仅25人，占比6.4%。离职的代表性人物仍活跃在中国大模型一线。罗福莉是小米Mimo团队负责人，郭达雅加入字节跳动Seed实验室，阮翀成为元戎启行首席科学家，王炳宣加入了腾讯混元团队。

27个月，27篇论文，391位研究员，25人离职。这是DeepSeek留给外界最清晰的数字。

DeepSeek团队仍在不断扩张

在基础模型领域，人才甚至是比算力、数据更稀缺的资源。真正决定模型能力上限的，往往不只是芯片数量或数据规模，更是一支能够长期稳定协作的研究团队。

包括字节跳动、阿里、腾讯等公司正在从OpenAI、Anthropic、谷歌Gemini等国际知名模型团队高价挖人。在国际市场，Meta甚至开出4年2亿-3亿美元的天价合同包挖角其他公司的顶尖研究员，总包薪酬甚至高过全球身价最高的足球明星姆巴佩、亚马尔。

因为，大模型研发并非是清晰的、按部就班的工程任务，更像是在无人区中探索。这高度依赖创造力。在这个过程中，组建高人才密度的团队才是关键。

《财经》了解到，以中国市场为例，各公司大模型研发团队通常由预训练、后训练、数据等团队组成。其中最核心的预训练、后训练团队规模通常仅为200人左右。模型训练团队甚至还会分成语言、代码、视觉、视频等不同研究方向，每个方向都有一个小团队。

一位中国基础模型明星创业公司人士对《财经》表示，大模型团队常见的组织模式是，由一两个顶尖AI科学家带领二三十个有活力、有想法的年轻研究员探索一个技术方向。公司要为他们提供充足的算力、宽松的环境，让他们验证各种新想法。

一位算法工程师对《财经》表示，大模型领域的知识迭代以月甚至周为单位。年轻的研究员不会受到旧知识体系的束缚，他们的学习研究一开始就基于最新的范式。最年轻的头脑往往最有创造力，这和足球运动员在20岁、30岁出头时体能、爆发力达到巅峰类似。

DeepSeek的主要人才来自北京大学、清华大学、浙江大学等中国本土知名高校的计算机系。那么，它的团队是如何逐渐扩张的？

《财经》选取了6款里程碑意义基础模型的论文名单，观察DeepSeek研究团队的扩张节奏——DeepSeek在27个月内，从不到100人扩张到了300多人。

2024年1月25日DeepSeek-LLM发布时有86位作者，2024年5月7日DeepSeek-V2发布时有156位作者，2024年12月26日DeepSeek-V3发布时有197位作者，2025年1月22日DeepSeek-R1发布时有194位作者，2025年12月1日DeepSeek-V3.2发布时有262位作者。2026年4月26日DeepSeek-V4发布时一共有317位作者。

DeepSeek的团队规模在国内甚至已经不算小了。DeepSeek 27篇论文的累计作者总数（跨论文去重且剔除外部机构）达到了391人。横向对比字节跳动Seed、阿里Qwen、月之暗面在Hugging Face主页上所有论文的累计作者总数会发现，字节跳动Seed是967人、阿里Qwen是352人、月之暗面是387人。

从论文累计作者人数可以侧面看到，它虽然人数远比字节跳动Seed团队要少，但对比其他模型公司仍然略多。

一支模型研究团队的价值，最终不仅体现为模型性能和论文数量，还体现在模型是否真正形成持续的开发者使用习惯与市场影响力。上述算法工程师对《财经》表示，论文数量、团队人数也许可以反映研发投入强度，但却不一定能完全代表研发水平。

DeepSeek的研究团队在开发者群体中的影响力甚至不逊色于其他公司。Token调用规模可以侧面反映这个问题。

和其他模型往往靠发布后一个月的热度短期冲榜不同，DeepSeek形成了稳定的开发者使用习惯与真实推理需求。全球模型聚合平台OpenRouter数据显示，近一年（2025年5月4日-2026年5月4日）DeepSeek在只有四款旗舰模型（DeepSeek-V3、R1、V3.2、V4）的情况下，Token调用量占比一直在5%-20%之间，调用量排名长期位居全球前六。

过去一年，虽然阿里Qwen、腾讯混元、小米Mimo、月之暗面Kimi、智谱GLM、MiniMax等国内模型都曾在一段时间内进入OpenRouter调用量前列，但多数模型的调用占比往往会随着市场热点变化快速波动。相比之下，DeepSeek的模型更新虽然慢，但生命周期更长。

核心研究团队仍然稳定

2026年，基础模型的竞争变得比过去三年还要激烈。

据《财经》不完全统计，2025年12月1日-2026年4月24日，美国市场（OpenAI、Anthropic、谷歌Gemini）和中国（包括阿里千问、字节跳动豆包、腾讯混元、小米MiMo、DeepSeek、月之暗面、智谱、MiniMax）的11家主流模型公司，在144天内至少发布或迭代了53款模型，几乎每2.7天就会有一款模型发布或迭代。

随着市场竞争烈度上升，人才的流动速度也在变快，巨头频频开出高薪挖角竞争对手的研究员。研究团队能否长期稳定协作，已经成为影响模型研发的重要变量。

梁文锋接受36氪暗涌Waves团队采访时提到过DeepSeek选人的标准——一直都是热爱和好奇心，所以很多人会有一些奇特的经历。很多人对做研究的渴望，远超对钱的在意。

在面对巨头高薪挖角的情况下，市场关心的一个问题是：DeepSeek这支研究团队，是否真的像外界传闻中那样频繁流失？答案是否定的。

《财经》采取了计算DeepSeek作者名单留存率的方式来进行观察。结果是，DeepSeek-LLM到DeepSeek-V3.2，DeepSeek不同时期模型团队的核心成员（剔除DeepSeek之外的其他高校或机构作者）作者名单留存率长期维持在70%-80%之间。

作者名单留存率的计算方式是，DeepSeek某一模型研发时期的论文作者中，后续仍持续出现在DeepSeek-V4作者名单且未被“*”标注为离职的人数占比。

需要强调的是，这种估算方式会低于真实在职率。因为，未被匹配到DeepSeek-V4作者的人，不一定已经离职，也可能转到其他岗位不再参与论文署名。以下留存率数据，应理解为可观测到的下限，而非精确在职率。

2024年1月25日DeepSeek-LLM的86位作者，71位出现DeepSeek V4的作者名单中且仍然在职。DeepSeek的初始团队，作者留存率是82.6%。

2024年5月7日DeepSeek-V2的156位作者，有106位出现DeepSeek V4的作者名单中且仍然在职。DeepSeek-V2团队，作者留存率是67.1%。

2024年12月26日DeepSeek-V3的197位作者，有148位出现DeepSeek V4的作者名单中且仍然在职。DeepSeek-V3团队，作者留存率至少是75.1%。

2025年1月22日DeepSeek-R1的194位作者，有143位出现DeepSeek V4的作者名单中且仍然在职。DeepSeek-R1团队，作者留存率至少是73.7%。

2025年12月1日DeepSeek-V3.2的262位作者，有212出现DeepSeek V4的作者名单中且仍然在职。DeepSeek-V3.2团队，作者留存率至少是80.9%。

根据上述数据来看，DeepSeek-LLM时期的早期团队作者留存率依旧很高，但在DeepSeek-V3和DeepSeek-R1之后的团队，作者留存率的确有所下滑。

上述中国基础模型明星创业公司人士对《财经》表示，DeepSeek的这一人才留存率数据在中国市场是较高水平。他所在的公司人才留存率略低于DeepSeek。

事实上，他所在的这家明星公司已经是一个理想主义气质很强的模型公司。在他看来，在巨头高薪挖角的环境下，现在愿意留在DeepSeek的研究员，往往是有追求的人。他所在的公司，也有被技术理想感召而去DeepSeek的研究员，但没有一个从DeepSeek过来的人。

美国风险投资公司SignalFire在2025年5月根据全球职业社交平台LinkedIn上的跳槽记录统计了全球顶尖AI实验室的员工2023年-2024年的两年留存率。其中，Anthropic是80%，谷歌DeepMind是78%，OpenAI是67%，Cohere是64%。

如果侧面参考SignalFire这一数据对比，DeepSeek的员工留存率和全球顶尖AI实验室相比，也属于正常甚至偏高的水平。

《财经》统计发现，DeepSeek的核心研究团队不仅始终保持了较高稳定性，同一批核心研究员长期还交叉参与了DeepSeek多个关键模型与研究方向的研发。

DeepSeek27篇论文中，出现频率最高的15个人，有13人目前仍然在职。且这些核心成员参与了DeepSeek LLM、DeepSeek-V2、DeepSeek-V3、DeepSeek-R1、DeepSeek-V3.2、DeepSeek-V4等六款关键基础模型的研发。

研究团队稳定，这让DeepSeek很多技术研究是有延续性的。每一代模型，都是站在前一代的工程和研究积累上出发进行创新。

比如，DeepSeek-V2中验证的MLA（Multi-head Latent Attention，多头潜在注意力）推理架构和MoE设计，被V3和R1直接沿用；DeepSeekMath中提出的GRPO（群体相对策略优化）强化学习算法，先被R1用于推理能力训练，后又被V4的数学方向训练直接采纳。

除此之外，DeepSeek的核心研究团队长期在不同模型与研究方向之间交叉协作。他们并不像很多大型科技公司那样，将不同技术方向完全拆分为独立的研发体系。

论文名单显示，同时参与了Coder（代码生成）、VL（视觉理解）、MoE（混合专家架构）、Math（数学计算）、OCR（光学字符识别）等至少三个不同技术方向的在职研究员至少有24人。这24个人全部都是DeepSeek-LLM阶段就已经加入了DeepSeek。

一位基础模型工程师曾对《财经》表示，基础模型训练过程中，很多真正关键的能力，并不会完全写进论文。它们会逐渐沉淀为研究团队内部的工程经验、训练直觉与跨方向协同能力。这些东西，往往需要一支长期稳定协作的研究团队，才能慢慢形成。

这也是DeepSeek研究团队和其他公司不同的地方。

DeepSeek离职的人去哪儿了

市场上长期关注的一个问题是，DeepSeek的离职员工到底去了哪儿？

DeepSeek论文中明确用“*”号标注离职的人有25人。他们出现在DeepSeek-V3、DeepSeek-R1、DeepSeek-V3.2、DeepSeek-V4这四篇论文中。

离开DeepSeek的研究员大部分并未离开基础模型行业。他们中的不少人，已经加入字节跳动、小米、腾讯等公司的模型核心团队，甚至开始独立负责新的研究方向。DeepSeek甚至为中国的大模型研究培养了一批具备带队能力的人才。

《财经》通过他们的个人学术主页、领英以及X（前Twitter）等公开渠道验证了12个研究员的动向。其中至少有4位进入了字节跳动、腾讯、小米等公司担任核心负责人。

Fuli Luo（罗福莉）2025年加入小米担任小米Mimo实验室负责人。她主导研究的MiMo-V2系列模型Token消耗量一度在OpenRouter平台今年3月的周榜中位列第一。

Bingxuan Wang（王炳宣）2025年末加入腾讯混元团队。

Daya Guo（郭达雅）2026年加入字节跳动Seed实验室担任Agent（智能体）负责人之一。

Chong Ruan（阮翀）2026年加入智能驾驶公司元戎启行任首席科学家，主导基座模型开发。

其他离开DeepSeek的7位研究员仍然活跃在大模型研究的一线，他们正在就读更高学位，同时还在其他大型科技公司继续担任学生研究员。目前主流的模型公司都会设置学生研究员岗位。

他们之中至少有3位目前或曾经在字节跳动Seed团队担任学生研究员，其中包括Haocheng Wang（王浩丞）、Huajian Xin(辛华剑)、Jiawei Wang（王家伟）。

Wanjia Zhao（赵万佳）2024年离开DeepSeek后，先后进入微软研究院雷德蒙德实验室与谷歌DeepMind担任学生研究员，目前仍在斯坦福大学攻读计算机科学博士。

综上来看，DeepSeek人才流失的说法至少目前不能成立，尚属于正常流动范围。

它仍然是一个核心团队稳定、规模持续扩张、能够稳定产出领先模型的中国本土研究团队。它甚至还在不断为其他中国模型公司输送有带队能力的人才。

DeepSeek创造的研究环境是中国市场稀缺的，这是它具备竞争力的关键因素。DeepSeek真正特殊的地方，不只是训练出了DeepSeek-R1、DeepSeek-V4这些模型。它还正在证明——中国本土AI研究团队，可以通过团队长期稳定协作的方式，持续参与全球前沿基础模型竞争。

27个月，27篇论文，391位研究员，25人离职。这是DeepSeek留给外界最清晰的一份答卷。

DeepSeek核心人才真的在流失吗？27篇论文里藏着答案

相关推荐