如今,硅谷完全处于中国公司带来的地震后。
整个美国都感到恐慌:全球人工智能中心是否已转移到中国?
此时此刻,世界各地的一波潮流也已经到来。
正如Lecun所说:“这次,这是开源的胜利!”
如果没有顶级芯片,DeepSeek会以极低的成本筹码来训练突破性模型,可能会威胁到美国AI霸权。
大型模型竞赛不再是一场计算能力战,它花费了数十万亿美元。
OpenAI,Meta和Google等大公司为Will Will崩溃而感到自豪,Nvidia的股价将开始摇摇欲坠。
所有这些观点和讨论使人们感到奇怪:这个行业真的需要数百亿美元的支出吗?有人甚至说,来自中国定量基金的一群天才将导致纳斯达克崩溃。
从那时起,大型模型时代可能会进入一个分水岭:超级绩效模型不再仅属于计算能力巨头,而是每个人。
1。每30美元,您可以看到“ aha”时刻
加州大学伯克利分校和另外两名研究人员的Pan Jiayi博士在倒计时游戏中重现了DeepSeek R1-Zero。
他们说结果非常好!
在实验中,团队验证了3B的基本语言模型也可以通过强化学习RL进行自我验证和搜索。
更令人兴奋的是,成本小于30美元(约217元),您可以用自己的眼睛目睹“ ahha”时刻。
该项目称为TinyZero,使用R1 -Zero算法 - 给定基本语言模型,提示和真实的奖励信号,运行增强学习。
然后,团队将其应用于倒计时游戏(玩家使用基本算术操作的游戏结合数字以达到目标数字)。
该模型从初始简单输出开始,并逐渐发展出自校正和搜索的策略。
在下面的示例中,该模型提出了一个解决方案,自我验证并重复纠正该解决方案,直到解决问题为止。
在消融实验中,研究人员运行了QWEN-2.5基线(四个参数量表:0.5B,1.5B,3B和7B)。
事实证明,0.5B型号只是猜测解决方案然后停止。从1.5B开始,该模型学会了搜索,自我验证和纠正其解决方案以获得更高的分数。
他们认为,在这个过程中,基本模型是性能的关键。
他们还验证了不需要的其他指令微调(SFT),这也证实了R1-Zero的设计决策。
这是第一个验证LLM推论功能实施的开源研究,该研究可以纯粹通过RL而无需监督微调。
基本模型和指令模型之间的区别:
此外,他们还发现特定的RL算法并不重要。在PPO,GRPO和Prime等算法中,长床可以出现并带来良好的性能。
此外,该模型在很大程度上依赖于推理行为中的特定任务:
Apple Machine学习科学家Yizhe Zhang说,真是太酷了。小至1.5B的模型也可以通过RL自我验证而出现。
2。7b模型复制品,结果令人惊讶
Ho Junxian的团队,香港科学技术大学的助理教授(共同加入Huang Yuzhen和Weihao Zeng),仅使用8K样品来重现7b上7b上的DeepSeek-R1-Zero和DeepSeek-R1-Zero和DeepSeek-R1的培训。模型。
结果令人惊讶 - 该模型在复杂的数学推理中取得了非常强大的结果。
项目地址:
他们从QWEN2.5-MATH-7B(基本模型)开始,直接进行了增强学习。
在整个过程中,没有执行监督的微调(SFT),也没有使用奖励模型。
最终,该模型在AIME基准上的准确度为33.3%,AMC的准确度为62.5%,数学的准确度为77.2%。
这种性能不仅超过了QWEN2.5-MATH-7B-7B教学,而且还匹配了Prime和RSTAR-MATH,它们使用的数据量超过50倍,并且组件的数量超过50倍!
其中,仅在QWEN2.5-MATH-7B基本模型上仅使用纯PPO方法对QWEN2.5-7B-SIMPLER-Zero进行了训练,并且仅使用了数学数据集中的8K样本。
QWEN2.5-7B-SIMPLERL首先用作长床监督的微调(SFT)的冷启动,然后进行加固学习。
在这两种方法中,团队仅使用相同的8K数学样本,仅此而已。
大约在步骤44,“ aha moment”出现了!在模型的响应中,发生自反射。
此外,在此过程中,该模型还显示了更长的COT推理和自我反思技能。
在博客中,研究人员对实验设置进行了详细分析,以及在此强化学习训练过程中观察到的现象,例如长链思维(COT)和自我反射机制的自发形成。
与DeepSeek R1相似,研究人员的增强学习方案非常简单,并且不使用奖励模型或MCT(Monte Carlo Tree搜索)类型技术。
他们使用PPO算法并使用基于规则的奖励功能根据生成的输出的格式和准确性分配奖励:
此实现基于OpenRLHF。初步实验表明,此奖励功能有助于策略模型快速收敛并产生满足预期格式的输出。
3。第1部分:Simplerl-Zero(从头开始学习)
接下来,研究人员与我们分享了训练过程的动态分析以及一些有趣的出现模式。
训练过程的动态分析
如下所示,在训练期间,所有基准的准确性都在稳步提高,而输出长度倾向于先减小,然后逐渐增加。
经过进一步的研究,研究人员发现QWEN2.5-MATH-7B基本模型倾向于在初始阶段生成大量代码,这可能是由于该模型原始培训数据的分布特征所致。
输出长度的第一次下降是因为加强学习训练逐渐消除了这种代码生成模式,而是学会了使用自然语言进行推理。
随后,生成长度开始再次增加,并且发生了自我反射机制。
培训奖励和产出长度
基准精度(通过@1)和输出长度
自我反思机制的出现
当训练达到步骤40左右时,研究人员观察到该模型开始形成一种自我反射模式,这正是DeepSeek-R1论文中描述的“ AHA时刻”。
4。第2部分:简单(基于模仿预热的加固学习)
如前所述,研究人员在进行加固学习之前进行了长长的COT SFT热身,使用了从QWQ-32B-Preview作为SFT数据集提取的8,000个数学样本响应。
这种冷启动的潜在优势在于,该模型在开始增强学习时已经具有很长的COT思维模式和自我反射,因此在强化学习阶段,它可以实现更快,更好的学习结果。
与RL训练之前的模型相比(QWEN2.5-MATH-7B基础 + 8K QWQ知识蒸馏版),QWEN2.5-7B-SIMPLERL的平均性能已显着提高了6.9个百分点。
此外,QWEN2.5-7B-SIMPLERL不仅在五个基准中的3个基准中的3个中不仅超过Eurus-2-7b-Prime,而且超过了Qwen2.5-7B-Simplerl-Zero。
培训过程分析
培训奖励和产出长度
基准精度(通过@1)和输出长度
QWEN2.5-SIMPLER的训练动态性能与Qwen2.5-Simplerl-Zero相似。
有趣的是,尽管研究人员首先表现出了长长的COT SFT,但在增强学习的早期阶段仍观察到了输出长度减小的现象。
他们推测这可能是因为从QWQ提取的推论模式不适合小规模的政策模型,或者超出了其功能。
因此,该模型选择放弃该模型,而是独立开发了新的长链推理方法。
最后,研究人员用Leonardo da Vinci的一句话总结了研究:简单是最终的精致。
5。完全开源的繁殖,拥抱面末端
即使是全球最大的开源平台的拥抱面团队,今天也正式宣布,它将复制DeepSeek R1的所有管道。
复制完成后,所有培训数据,培训脚本等将是开源的。
该项目称为Open R1,并且仍在进行中。出版当天,Star Blade闯入1.9k,赢得了142叉。
项目地址:
在DeepSeek-R1技术报告的指导下,研究团队将整个繁殖过程分为三个关键步骤。
6。从斯坦福到麻省理工学院,R1成为首选
附带业务项目使全球伟大的技术公司感到恐慌。
DeepSeek的成功也已成为行业的神话。 Netizens的最新屏幕截图表明,该应用程序已经在App Store“效率”应用程序列表中进入了前三名。
在拥抱面孔中,R1下载直接排名榜首,其他三个型号也占据了热门列表。
A16Z合作伙伴Anjney Midha表示,从斯坦福大学到麻省理工学院的一夜之间,DeepSeek R1已成为美国顶级大学研究人员的“首选模式”。
一些研究人员还说,DeepSeek基本上取代了我使用Chatgpt的需求。
这次中国的人工智能确实震惊了世界。
参考: