Skip to content
Unstructured Play
Go back

2025 AI 年度回顾:RLVR、氛围编程与 AI"幽灵"降临

2025 年是 AI 让人喘不过气的一年。为了理清这一年到底发生了什么,我找到了两份我认为最好的年度回顾——一份来自 Andrej Karpathy,一份来自 Simon Willison——并制作了一期播客,把两位大神的核心观点揉在一起做了一次深度拆解。

这篇文章是那期播客的文字整理,聚焦三个我认为最重要的变化。

Table of contents

Open Table of contents

一、RLVR:AI 学会了自己刷题

2024 年大家还在天天讲 RLHF(人类反馈强化学习),到了 2025 年,一个新词占据了舞台中央:RLVR——Reinforcement Learning from Verifiable Rewards,基于可验证奖励的强化学习。

两者的区别,用一个比喻来说:

RLVR 的关键在于,训练 AI 的”考试题”换成了有唯一正确答案的难题:数学题、编程挑战、逻辑竞赛。对了就是对了,错了就是错了,模型没法钻空子去讨好人类评估者。

自发涌现的”推理”能力

最惊人的是,模型在这个过程中自己悟出了推理策略。就像我们做数学题时在草稿纸上写步骤一样,模型学会了把大问题分解成一连串可验证的小步骤,发现错误时退回重试,直到找到最优路径。

这种能力很难通过简单模仿学会——它必须是模型在成千上万次试错中,自己找到的最高效方法。Karpathy 认为这就是 o1 模型之后,我们感觉 AI 突然变聪明的根本原因。

“思考时间”的缩放法则

RLVR 还开启了一个全新的能力维度:测试时计算量(Test-time compute)。模型生成更长的推理链、花更多”思考时间”,表现就会更好。这意味着在参数规模相同的情况下,更长的强化学习训练能显著提升复杂任务的表现。

结果呢?推理模型(如 OpenAI o1/o3 和 Gemini 系列)在国际数学奥林匹克(IMO)和大学生程序设计竞赛(ICPC)中拿到了金牌级水准。而且这些竞赛题目是原创的——模型不是靠记忆,而是靠内化的推理能力解决全新问题。

一个比喻

如果说传统的 LLM 训练是在教学生背诵标准答案,那么 RLVR 就像是把学生关进一个有自动评改机的实验室。学生不再需要老师告诉他该怎么做,而是通过成千上万次的尝试与失败,自己摸索出解决复杂难题的底层逻辑。


二、幽灵降临:编码代理引爆了什么

RLVR 带来的推理能力,最直接的产物就是真正可用的 AI 代理(Agent)

Willison 在年初还发文说自己觉得 2025 年不会是代理之年——他在年终回顾里承认被打脸了,至少被打了一半。

引爆这一切的,是 Anthropic 在 2 月份悄悄发布的 Claude Code——一个连正经发布博客都没有的命令行工具。它的模式简单而强大:你给它一个任务,它写代码、在真实环境里运行、读取报错信息、自己修改、再运行——一个完整的闭环,直到任务完成。

Karpathy 对此有个特别形象的描述:

AI 不再是一个你访问的网站,而是一个生活在你电脑里的小幽灵

因为它能直接读写你本地的文件、调用你本地的工具。这和在网页对话框里聊天,完全是两种维度的交互。

氛围编程(Vibe Coding)

Karpathy 还造了个新词:Vibe Coding——凭感觉写代码。你可以完全抛开编程语法,用最模糊、最口语化的方式下指令。比如:

“帮我做个网页,能让我上传一段会议录音,然后自动生成纪要。界面搞得酷一点,像苹果官网那样。”

然后 AI 就真的给你生成一个基本能跑的东西。Karpathy 说他现在写小程序写完甚至懒得看代码,出了错就把报错信息整个扔给 AI,问题通常就解决了。

重点不在于代码质量有多高,而在于从一个想法到一个可用产品的速度,快到不可思议。 代码变得前所未有的廉价、可塑,甚至是一次性的。

10 亿美元的命令行

Willison 抛出了一个让人下巴掉下来的数据:单单 Claude Code 这一个命令行工具,到 12 月份,年化收入已经冲到了 10 亿美元——一个连图形界面都没有、只给程序员用的工具。

这说明了什么?当一个 AI 工具的能力真正跨过了”足够好用”的阈值,能无缝嵌入到专业人士最高频的工作流里,并且带来的效率提升是 10 倍而不是 10% 的时候,它的商业价值就会呈指数级爆发。


三、锯齿状的幽灵智能

RLVR 在带来惊人突破的同时,也塑造了一种非常特殊的智能形态——Karpathy 称之为锯齿状智能(Jagged Intelligence)

这个概念值得每一个使用 AI 的人理解:

在可验证领域(数学、编程、基准测试),模型表现得像全才天才——因为 RLVR 就是在这些领域训练的。

在不可验证领域(常识判断、模糊推理、社交理解),模型可能依然表现得像个认知受限的小学生——因为这些领域很难提供明确的自动化奖励。

基准测试正在失效

由于基准测试本身就是天然的可验证环境,极易受到 RLVR 的过度优化影响。模型可能在测试集上拿高分,但实际应用中仍存在缺陷。分数在涨,但你日常使用时的体感可能并没有那么大提升——这就是锯齿的含义。

我们该如何与”幽灵”相处

这种锯齿状的智能,再加上代理能力的爆发,产生了一个 Willison 特别警惕的现象:异常常态化(Normalization of Deviance)

这个概念来自社会学家 Diane Vaughan 对挑战者号航天飞机灾难的研究。工程师们明知道 O 型环在低温下有缺陷,但因为之前几次发射都没出事,就慢慢把异常当成了可接受的常态——直到灾难发生。

Willison 认为我们对 AI 代理的使用正处在同样的心理陷阱里。每一次我们让 AI 在无人监督的”YOLO 模式”下自动操作没出事,我们就会越来越大胆——直到有一天,一个恶意的提示注入攻击或一个模型逻辑错误,可能造成不可挽回的后果。


写在最后

2025 年的故事,可以用一句话概括:RLVR 让 AI 学会了推理,推理让代理成为现实,代理让一个”幽灵”住进了我们的电脑。

但这个幽灵的智能是锯齿状的——在某些领域天才,在某些领域小学生。理解这一点,既能帮我们更好地利用它的超能力,也能让我们在把方向盘交给它之前多一份清醒。


参考资料


Share this post on:

Previous Post
Skill 工程化建设指南:从"写 Prompt"到"构建 AI Know-How 工程"