Skip to content
返回资讯
本页目录 · 6

· 1 分钟阅读

Karpathy 加入 Anthropic:一位 OpenAI 旧将重返前沿大模型训练

Andrej Karpathy 加入 Anthropic 预训练团队,标志着前沿大模型竞争继续向基础训练、研究组织和顶尖人才争夺延伸;这既是个人重返 LLM 研究的选择,也是 OpenAI 与 Anthropic 之间叙事力量变化的信号。

2026 年 5 月 19 日,The Decoder 作者 Matthias Bastian 报道称,AI 研究员 Andrej Karpathy 将加入 Anthropic。报道随后更新称,Karpathy 加入的是 Anthropic 的预训练团队。这个信息让新闻的重心从一次普通的人才流动,转向前沿大模型竞争中更底层的一块:基础模型训练。

Karpathy 的履历本身足够有分量。他曾是 OpenAI 早期核心团队成员,后来进入 Tesla,参与建设 Autopilot 与 Full Self-Driving 技术;之后又重返 OpenAI,并在 2024 年 离开。The Decoder 还提到,他最近通过 Eureka Labs 投入 AI 教育工作。现在,他选择加入 Anthropic,等于从教育项目回到前沿 LLM 研究一线。

报道中的时间尺度也值得注意。Karpathy reportedly described the next few years at the frontier of large language models as “especially formative”。换句话说,他并不是把这次转向描述成一次短期职位变化,而是把未来几年看作大模型基础能力继续成形的关键窗口。

一位关键研究员转身加入 Anthropic

The Decoder 把事件落点放在 Karpathy 加入 Anthropic,并在更新中明确称,他加入的是 Anthropic 的 pretraining team。报道还引用 Axios 的说法称,Karpathy 将组建自己的预训练团队。这使新闻多了一层含义:Anthropic 得到的不只是一个知名研究员,也可能是一支围绕基础训练问题展开的新团队。

报道称,Karpathy 是在 X 上宣布这一动向。The Decoder 随后把他的个人经历、Anthropic 的团队位置,以及 Axios 转述的团队方向放在同一篇报道里说明。对外部读者来说,最稳妥的理解是:这是一条已经由媒体报道并补充更新的人才新闻,但一些更细的内部安排仍来自二级转述。

这类转会之所以会被放大,是因为前沿模型公司的竞争已经不只体现在产品发布上。Chatbot、代码助手、企业 API 是外部能看到的界面,真正决定长期能力上限的,仍是训练方法、数据配比、研究迭代和工程组织。Karpathy 的名字刚好横跨这些层面:OpenAI 的早期研究、Tesla 的自动驾驶系统、Eureka Labs 的教育实验,以及现在 Anthropic 的预训练方向。

Karpathy 从 OpenAI、Tesla、Eureka Labs 转向 Anthropic 预训练

从 OpenAI 早期核心到 Tesla 自动驾驶,再到 AI 教育

The Decoder 回顾称,Karpathy 是 OpenAI 早期核心团队的一员。这段经历在报道中被形容为:

“especially formative”

这句引语原本指他对未来几年 LLM 前沿研究的判断,但也能解释外界为什么关注他的去向。Karpathy 并不是只在某一个产品线上积累经验。他在 OpenAI 接触过基础研究,在 Tesla 参与过面向现实世界的视觉与自动驾驶系统,后来又通过公开课程、讲解和 Eureka Labs 把重心转向教育。

Tesla 这一段尤其关键。Autopilot 和 Full Self-Driving 并不是纯实验室项目,它们要求模型、数据、工程系统和用户场景长期咬合。这样的经历会影响一个研究员看待大模型训练的方式:模型能力不是论文指标上的孤立数字,而是训练系统、反馈机制、工程部署和真实任务之间的综合结果。

The Decoder 称,Karpathy 后来重返 OpenAI,并在 2024 年 离开。最近一段时间,他的公开工作更多围绕 AI education 展开。基于报道中能确认的信息,他的路径可以清晰连起来:OpenAI、Tesla、再次回到 OpenAI、Eureka Labs,然后是这次加入 Anthropic。这个轨迹本身说明,他不是第一次在研究、产品系统和教育之间切换。

预训练为何成为这次转会的关键词

这条新闻最重要的关键词是“预训练”。The Decoder 对 Anthropic 预训练团队的描述是:它负责大模型后续专项化之前的基础训练阶段。报道还称,后续 fine-tuning 可以继续面向 reasoning、coding 或 math 等方向塑形。

“initial training of large AI models”

这句定义解释了 The Decoder 为什么把 Anthropic 的预训练团队作为报道重点。预训练不是外部用户最容易感知的产品功能,却是模型能力的底座。一个模型后面能否在推理、编程、数学、多步规划中表现稳定,很大程度上受基础模型阶段影响。后训练可以塑形和对齐,但很难凭空补出底座里没有的能力结构。

放在 Anthropic 与 OpenAI 的竞争中看,预训练团队也不只是一个技术部门名称。它代表公司愿意把资源继续压在基础模型能力上,而不是只围绕应用层做包装。Karpathy 加入这个位置,信号比“加入 Anthropic”四个字更明确:他回到的是前沿模型训练链条中最靠前、也最能影响后续能力边界的环节。

这并不意味着外界已经知道 Anthropic 下一代 Claude 的具体路线。当前材料没有给出模型发布时间、训练规模、数据细节或架构变化。能确定的是,The Decoder 报道 Karpathy 加入 Anthropic 的预训练团队;能进一步引用的是 Axios 被转述的说法,即他将组建团队,并关注如何用 Claude 加速预训练研究。

预训练位于 Claude 后续推理、编程和数学能力之前

Claude 反过来加速 Claude:研究流程的新循环

The Decoder 转述 Axios 的关键细节,是 Karpathy 的团队将关注用 Claude 加速预训练研究。

“using Claude to speed up pretraining research”

这个说法的看点不在于 Claude 是否直接“训练自己”,而在于研究流程可能出现新的闭环。前沿模型训练涉及大量实验设计、日志分析、失败样本归因、数据清洗、基准对比和代码修改。若 Claude 能在这些环节里缩短研究人员的反馈周期,它对预训练团队的价值就不只是一个演示能力,而是一个内部研究工具。

The Decoder 在报道中写道,AI 研究的一项关键赌注,是模型能帮助改进模型自身,从而让进步速度继续叠加。这个判断还不能被简化成确定结论。模型辅助研究能带来多大效率提升,取决于很多现实条件:研究任务是否可形式化,内部工具链是否足够成熟,模型建议能否被可靠验证,以及团队是否能把人类判断和自动化流程放在合适的位置。

因此,这条线索更适合作为观察点,而不是已经完成的事实。外界可以关注 Anthropic 接下来是否更频繁地讨论内部研究自动化,是否公开 Claude 在训练研究中的用例,以及 Karpathy 是否围绕预训练、数据和评估发布更具体的技术观点。

对 OpenAI 的象征性损失,还是 Anthropic 的组织胜利

The Decoder 在报道中把这次动向称作 OpenAI 的:

“clear loss for his former employer”

这是一种报道判断,不是量化指标。事实层面可以确认的是,Karpathy 曾属于 OpenAI 早期核心团队,后来重返 OpenAI,并在 2024 年 离开;现在,The Decoder 报道称他将加入 Anthropic 的预训练团队。至于这对 OpenAI 造成多大实际影响,当前材料没有给出可衡量数据。

但从叙事上看,这件事确实对 Anthropic 有利。过去几年,OpenAI 长期占据“前沿模型研究中心”的公众心智;Anthropic 则更多以 Claude、安全研究、宪法式 AI 和企业采用作为识别点。Karpathy 这样的研究员加入 Anthropic,会强化一个信号:Anthropic 不只是 OpenAI 的产品竞争者,也在吸引曾经参与前沿模型早期建设的人才。

这并不等于 OpenAI 的研究能力被削弱到某个具体程度,也不等于 Anthropic 的下一步模型一定因此发生跳跃。顶尖模型公司的能力来自组织整体,而不是单个研究员。但在人才竞争、研究文化和外部叙事交织的行业里,关键人物的选择会改变外界对公司势能的判断。Karpathy 选择 Anthropic,至少让这种判断多了一个清晰案例。

未被证实的细节与后续观察点

仍需要保持边界感。当前可用材料来自 The Decoder 的报道,其中一些关键细节依赖 Karpathy 的 X 帖以及 Axios 的转述。报道页面没有显示 Anthropic 的官方新闻稿,也没有展示雇佣合同或团队编制文件。因此,能确定的是 The Decoder 报道了 Karpathy 加入 Anthropic,并称更新信息显示他加入预训练团队;能谨慎引用的是 Axios 被转述的说法,即他将组建自己的预训练团队,并关注使用 Claude 加速预训练研究。

除此之外,具体入职安排、团队规模、项目优先级和内部汇报关系,都不应由外部材料自行补全。接下来更值得观察的,是 Karpathy 是否公开谈到预训练研究方向,Anthropic 是否发布与该团队相关的招聘或研究内容,以及 Claude 是否在内部研究自动化上出现更明确的案例。

对读者来说,这条新闻的核心不是“某位名人换了公司”,而是前沿大模型竞争继续向更底层移动。产品层的竞争仍会被用户最先看到,但真正能改变下一代模型能力边界的,往往发生在更早的训练阶段。Karpathy 加入 Anthropic,正好把这一层重新推到台前。

数据来源