1/30训练步骤复刻DeepSeek-R1!阶跃星辰开源推理模型RL训练方法
极简RL训练方案突破效率瓶颈
阶跃星辰联合清华大学发布Open Reasoner Zero(ORZ),提出一种颠覆性强化学习(RL)训练方法。实验显示,该方法仅需DeepSeek-R1-Zero 1/30的训练步骤,即可在7B参数模型上实现同等推理能力,响应长度优化效率提升83%。
技术核心在于去复杂化设计:
- 采用原始PPO算法结合GAE(λ=1,γ=1)
- 基于规则的奖励函数替代复杂设计
- 取消KL散度正则化仍保持训练稳定
在Qwen2.5-Base-7B模型测试中,该方法在MMLU/MMLU_PRO基准分别取得78.2%和72.5%准确率,超越Qwen2.5 Instruct模型2.3个百分点。
训练过程惊现“顿悟时刻”
研究团队在训练日志中发现关键转折点:
- 第680步:奖励值、反思能力、响应长度同步跃升
- 平均反思长度持续高于响应长度,显示自主推理演化
- 与DeepSeek-R1论文描述的“顿悟现象”高度相似
数据分析表明,当训练数据集规模突破500万条多样化样本时,模型开始展现跨领域泛化能力,在数学证明、逻辑推理任务中错误率下降41%。
开源生态重构AI研发范式
ORZ项目实现全栈开源:
- 数据集:包含1200万条多模态推理数据
- 训练框架:支持PyTorch/HuggingFace生态
- 模型权重:MIT许可证商用友好
开源48小时内,GitHub仓库星标突破700+,开发者实测显示:
- 在NVIDIA A100上单卡训练效率达1800 tokens/秒
- 16节点集群可扩展至70B参数模型训练
- 推理延迟较传统RLHF方案降低57%
行业影响与未来方向
此项研究打破两大行业认知:
- 数据质量 > 算法复杂度:大规模多样化数据驱动性能突破
- 轻量化训练可行:无需复杂正则化即可稳定扩展RL
阶跃星辰CEO姜大昕透露,团队正探索将该方案应用于千亿参数模型训练,目标在通用推理任务中实现人类专家级表现。
原创文章,作者:PhiltreX,如若转载,请注明出处:https://openai.wiki/open-reasoner-zero-release.html