2025 AI 年度回顾：RLVR、氛围编程与 AI"幽灵"降临

2025 年是 AI 让人喘不过气的一年。为了理清这一年到底发生了什么，我找到了两份我认为最好的年度回顾——一份来自 Andrej Karpathy，一份来自 Simon Willison——并制作了一期播客，把两位大神的核心观点揉在一起做了一次深度拆解。

这篇文章是那期播客的文字整理，聚焦三个我认为最重要的变化。

Open Table of contents

一、RLVR：AI 学会了自己刷题
二、幽灵降临：编码代理引爆了什么
- 氛围编程（Vibe Coding）
- 10 亿美元的命令行
三、锯齿状的幽灵智能
- 基准测试正在失效
- 我们该如何与”幽灵”相处
写在最后
参考资料

一、RLVR：AI 学会了自己刷题

2024 年大家还在天天讲 RLHF（人类反馈强化学习），到了 2025 年，一个新词占据了舞台中央：RLVR——Reinforcement Learning from Verifiable Rewards，基于可验证奖励的强化学习。

两者的区别，用一个比喻来说：

RLHF 像是请了一个健身教练看着你练，他说”嗯，这个动作不错”——很主观。
RLVR 是直接给你一块秒表去跑百米——成绩好不好，一目了然。

RLVR 的关键在于，训练 AI 的”考试题”换成了有唯一正确答案的难题：数学题、编程挑战、逻辑竞赛。对了就是对了，错了就是错了，模型没法钻空子去讨好人类评估者。

自发涌现的”推理”能力

最惊人的是，模型在这个过程中自己悟出了推理策略。就像我们做数学题时在草稿纸上写步骤一样，模型学会了把大问题分解成一连串可验证的小步骤，发现错误时退回重试，直到找到最优路径。

这种能力很难通过简单模仿学会——它必须是模型在成千上万次试错中，自己找到的最高效方法。Karpathy 认为这就是 o1 模型之后，我们感觉 AI 突然变聪明的根本原因。

“思考时间”的缩放法则

RLVR 还开启了一个全新的能力维度：测试时计算量（Test-time compute）。模型生成更长的推理链、花更多”思考时间”，表现就会更好。这意味着在参数规模相同的情况下，更长的强化学习训练能显著提升复杂任务的表现。

结果呢？推理模型（如 OpenAI o1/o3 和 Gemini 系列）在国际数学奥林匹克（IMO）和大学生程序设计竞赛（ICPC）中拿到了金牌级水准。而且这些竞赛题目是原创的——模型不是靠记忆，而是靠内化的推理能力解决全新问题。

一个比喻

如果说传统的 LLM 训练是在教学生背诵标准答案，那么 RLVR 就像是把学生关进一个有自动评改机的实验室。学生不再需要老师告诉他该怎么做，而是通过成千上万次的尝试与失败，自己摸索出解决复杂难题的底层逻辑。

二、幽灵降临：编码代理引爆了什么

RLVR 带来的推理能力，最直接的产物就是真正可用的 AI 代理（Agent）。

Willison 在年初还发文说自己觉得 2025 年不会是代理之年——他在年终回顾里承认被打脸了，至少被打了一半。

引爆这一切的，是 Anthropic 在 2 月份悄悄发布的 Claude Code——一个连正经发布博客都没有的命令行工具。它的模式简单而强大：你给它一个任务，它写代码、在真实环境里运行、读取报错信息、自己修改、再运行——一个完整的闭环，直到任务完成。

Karpathy 对此有个特别形象的描述：

AI 不再是一个你访问的网站，而是一个生活在你电脑里的小幽灵。

因为它能直接读写你本地的文件、调用你本地的工具。这和在网页对话框里聊天，完全是两种维度的交互。

氛围编程（Vibe Coding）

Karpathy 还造了个新词：Vibe Coding——凭感觉写代码。你可以完全抛开编程语法，用最模糊、最口语化的方式下指令。比如：

“帮我做个网页，能让我上传一段会议录音，然后自动生成纪要。界面搞得酷一点，像苹果官网那样。”

然后 AI 就真的给你生成一个基本能跑的东西。Karpathy 说他现在写小程序写完甚至懒得看代码，出了错就把报错信息整个扔给 AI，问题通常就解决了。

重点不在于代码质量有多高，而在于从一个想法到一个可用产品的速度，快到不可思议。 代码变得前所未有的廉价、可塑，甚至是一次性的。

10 亿美元的命令行

Willison 抛出了一个让人下巴掉下来的数据：单单 Claude Code 这一个命令行工具，到 12 月份，年化收入已经冲到了 10 亿美元——一个连图形界面都没有、只给程序员用的工具。

这说明了什么？当一个 AI 工具的能力真正跨过了”足够好用”的阈值，能无缝嵌入到专业人士最高频的工作流里，并且带来的效率提升是 10 倍而不是 10% 的时候，它的商业价值就会呈指数级爆发。

三、锯齿状的幽灵智能

RLVR 在带来惊人突破的同时，也塑造了一种非常特殊的智能形态——Karpathy 称之为锯齿状智能（Jagged Intelligence）。

这个概念值得每一个使用 AI 的人理解：

在可验证领域（数学、编程、基准测试），模型表现得像全才天才——因为 RLVR 就是在这些领域训练的。

在不可验证领域（常识判断、模糊推理、社交理解），模型可能依然表现得像个认知受限的小学生——因为这些领域很难提供明确的自动化奖励。

基准测试正在失效

由于基准测试本身就是天然的可验证环境，极易受到 RLVR 的过度优化影响。模型可能在测试集上拿高分，但实际应用中仍存在缺陷。分数在涨，但你日常使用时的体感可能并没有那么大提升——这就是锯齿的含义。

我们该如何与”幽灵”相处

这种锯齿状的智能，再加上代理能力的爆发，产生了一个 Willison 特别警惕的现象：异常常态化（Normalization of Deviance）。

这个概念来自社会学家 Diane Vaughan 对挑战者号航天飞机灾难的研究。工程师们明知道 O 型环在低温下有缺陷，但因为之前几次发射都没出事，就慢慢把异常当成了可接受的常态——直到灾难发生。

Willison 认为我们对 AI 代理的使用正处在同样的心理陷阱里。每一次我们让 AI 在无人监督的”YOLO 模式”下自动操作没出事，我们就会越来越大胆——直到有一天，一个恶意的提示注入攻击或一个模型逻辑错误，可能造成不可挽回的后果。

写在最后

2025 年的故事，可以用一句话概括：RLVR 让 AI 学会了推理，推理让代理成为现实，代理让一个”幽灵”住进了我们的电脑。

但这个幽灵的智能是锯齿状的——在某些领域天才，在某些领域小学生。理解这一点，既能帮我们更好地利用它的超能力，也能让我们在把方向盘交给它之前多一份清醒。