10美元复现DeepSeek顿悟时刻！3B模型推理能力突破引业界震动

荷兰团队创低成本训练新纪录

荷兰阿姆斯特丹开发者Raz通过自研算法Reinforce-Lite，在仅消耗10美元计算资源的条件下，成功让3B参数模型展现出回溯、自我反思及逻辑推理能力。这一成果刷新了此前UC伯克利团队30美元的复现记录，证明小规模模型在轻量化强化学习框架中同样具备潜力。

实验采用RTX A6000显卡进行12小时训练，通过分组归一化奖励机制和梯度裁剪技术，在GSM8K数学数据集上实现准确率提升。研究显示，模型在未增加复杂组件（如KL散度计算或价值网络）的情况下，自主演化出表格计算、代数推导等能力。

传统强化学习框架（如PPO）需依赖多个模型组件，导致计算复杂度飙升。Raz团队通过以下创新实现突破：

代码实现显示，该算法仅需单批次生成响应并计算优势值，显著降低GPU内存占用。在Phi-3.5 Instruct等模型上，训练后准确率提升0.6%-2%，且生成内容包含预训练阶段未见的逻辑验证步骤。

微软亚研院受DeepSeek-R1启发，对Qwen2.5-7B模型进行强化学习训练后，发现其涌现出三项关键能力：

研究团队通过合成逻辑谜题验证发现，模型在AIME/AMC数学基准上的成绩分别提升125%和38%。但数据分析表明，这些能力是渐进式发展的，未出现传统认知中的“顿悟时刻”。

微软论文通过词汇频率追踪发现：

这挑战了“突变式能力涌现”的理论，暗示RL训练可能通过量变引发质变。研究同时指出，监督微调（SFT）易导致机械记忆，而RL更擅长培养泛化能力。

此文章由OpenAI开源维基百科原创发布，如若转载请注明出处：https://openai.wiki/rl-breakthrough.html