在基础模型的响应中,发现了浅度自我反思现象(Superficial Self-Reflection,SSR),但这种自我反思带来的最终答案不一定正确。但强化学习可以将SSR转化为有效自我反思,提升模型效果。 研究者测试了各家机构的多种基础模型,包括Qwen-2.5、Qwen-2.5-Math、DeepSeek-Math、Rho-Math和Llama-3.x。