Rethink - 搜索 News

13 小时

DeepSeek-R1-Zero不存在顿悟时刻？华人团队揭秘真相：或只因强化学习

在基础模型的响应中，发现了浅度自我反思现象（Superficial Self-Reflection，SSR），但这种自我反思带来的最终答案不一定正确。但强化学习可以将SSR转化为有效自我反思，提升模型效果。研究者测试了各家机构的多种基础模型，包括Qwen-2.5、Qwen-2.5-Math、DeepSeek-Math、Rho-Math和Llama-3.x。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果

今日热点