在人工智能领域,推理能力的进化已成为通向通用智能的核心挑战。近期,Reinforcement Learning with Verifiable Rewards(RLVR)范式下涌现出一批「Zero」类推理模型,摆脱了对人类显式推理示范的依赖,通过强化学习过程自我学习推理轨迹,显著减少了监督训练所需的人力成本。然而,这些方法的学习任务分布仍由人类预先设计,所依赖的数据依旧高度依赖专家精心策划与大量人工标注,面临着难以扩展与持续演化的瓶颈。
为解决这一根本性瓶颈,研究团队提出了全新的推理训练范式:Absolute Zero。该范式中,模型具备双重能力:一是自主提出最具可学习性(learnability)的任务,二是通过解决这些任务不断提升推理能力。整个过程在与环境的互动中完成,环境负责验证任务的合理性和解答的正确性,并为模型提供奖励反馈。这一机制构成了「自博弈闭环」:模型不断提出任务、求解任务、从反馈中改进策略,完全不依赖任何人工构建的数据集。Absolute Zero 实现了真正意义上的「零人工数据推理模型」,不仅打破了现有范式对人类标注的依赖,也为构建具备持续自我进化能力的智能体开辟了新路径。这一范式的提出,标志着推理模型训练从「模仿人类」迈向「自主成长」的关键一步。
为验证并实现 Absolute Zero 这一全新推理训练范式的可行性,研究团队提出了首个具体实现系统:Absolute Zero Reasoner(AZR)。作为该范式的初步探索,AZR 是一种统一的大语言模型系统,在训练过程中同时担任任务提出者与求解者两个角色。它能够不断自我构建学习任务、自我尝试解答,并在与代码实行器环境交互中获得可验证反馈,从而实现无需人工数据的自我进化学习。
Absolute Zero Reasoner 训练流程概览。每轮训练中,基于历史生成的三元组和指定任务类型(溯因、演绎或归纳)模型会首先提出一批新任务;随后使用 Python 代码实行器对新任务进行过滤与构造,生成可验证的代码推理问题,并为每个任务计算可学习性奖励。接着,模型尝试解答这些问题,并根据输出结果的正确性获得准确性奖励。最后,模型结合两种奖励信号,统一更新参数,以此实现多任务下的自我进化学习。
双重角色:同时担任任务设计者与问题求解者
在 Absolute Zero 框架中,大模型一体扮演「提出者」(Proposer)和「解答者」(Solver)两个角色。模型首先提出一个新任务,由环境验证其可解性与学习价值;随后模型尝试解决该任务,并根据答案的正确性获得奖励。两阶段均通过强化学习训练,并共享同一套模型参数,确保推理能力与任务设计能力同步提升。
最终,AZR 无需任何人工构建的数据,通过与环境的互动,在复杂任务空间中自我构建、自我评估、自我进化,展现出通用推理智能的新形态。Absolute Zero 范式为构建具备类人「经验」与「成长力」的 AI 系统提供了崭新的思路。
实验结果
在本项研究中,研究团队全面评估了 Absolute Zero Reasoner(AZR)在多项推理任务中的表现,涵盖代码生成与数学推理两个关键领域,并与多个基于专家数据训练的推理模型进行了对比。从结果来看,AZR 在完全不依赖任何人工构建数据的前提下,取得了超越现有主流模型的表现,充分展现了「零数据自我进化」范式的巨大潜力。
本论文一作是清华大学自动化系四年级博士生 Andrew Zhao(赵启晨),他专注于强化学习、大语言模型、Agents 和推理模型的研究。
他的导师是黄高教授。他是大语言模型 Agents 经验学习开创性工作《ExpeL: LLM Agents Are Experiential Learners》的第一编辑,也是《DiveR-CT: Diversity-enhanced Red Teaming Large Language Model Assistants with Relaxing Constraints》第一编辑。