10美元复现DeepSeek顿悟时刻!3B模型推理能力突破引业界震动
荷兰团队创低成本训练新纪录
荷兰阿姆斯特丹开发者Raz通过自研算法Reinforce-Lite,在仅消耗10美元计算资源的条件下,成功让3B参数模型展现出回溯、自我反思及逻辑推理能力。这一成果刷新了此前UC伯克利团队30美元的复现记录,证明小规模模型在轻量化强化学习框架中同样具备潜力。
实验采用RTX A6000显卡进行12小时训练,通过分组归一化奖励机制和梯度裁剪技术,在GSM8K数学数据集上实现准确率提升。研究显示,模型在未增加复杂组件(如KL散度计算或价值网络)的情况下,自主演化出表格计算、代数推导等能力。
Reinforce-Lite:简化RL训练的革命性方案
传统强化学习框架(如PPO)需依赖多个模型组件,导致计算复杂度飙升。Raz团队通过以下创新实现突破:
- 移除冗余模块:取消旧策略模型、参考模型和评论模型
- 分组奖励机制:将10组响应归一化处理以降低方差
- 端到端优化:直接通过奖励信号驱动策略更新
代码实现显示,该算法仅需单批次生成响应并计算优势值,显著降低GPU内存占用。在Phi-3.5 Instruct等模型上,训练后准确率提升0.6%-2%,且生成内容包含预训练阶段未见的逻辑验证步骤。
微软研究:RL激发7B模型高级推理技能
微软亚研院受DeepSeek-R1启发,对Qwen2.5-7B模型进行强化学习训练后,发现其涌现出三项关键能力:
- 自我验证:输出中频繁出现“重新检查这一步”等反思性表达
- 多路径探索:主动提出并测试多种解决方案
- 跨语言推理:中英文混合输出揭示新型表征模式
研究团队通过合成逻辑谜题验证发现,模型在AIME/AMC数学基准上的成绩分别提升125%和38%。但数据分析表明,这些能力是渐进式发展的,未出现传统认知中的“顿悟时刻”。
技术争议:涌现现象的本质再思考
微软论文通过词汇频率追踪发现:
- 反思性词汇(如“验证”)使用率呈线性增长
- 中文词汇意外嵌入英文推理流程
- 答案长度与推理质量无直接关联
这挑战了“突变式能力涌现”的理论,暗示RL训练可能通过量变引发质变。研究同时指出,监督微调(SFT)易导致机械记忆,而RL更擅长培养泛化能力。
评论 (0)