DeepSeek R1/R1-Zero让RL大火,SFT就无用了吗?滑铁卢与卡内基梅隆大学带来一种全新范式批判微调(CFT:Critique Fine-Tuning,已开源),即让模型学习对有噪声的回答进行批判,而不是简单地模仿正确的回答。
10 小时
来自MSN李飞飞团队50美元复刻DeepSeek?其实是基于通义监督微调继DeepSeek掀起轩然大波之后,AI圈这两天再次被“震惊”。 近日有媒体报道称,李飞飞等斯坦福大学和华盛顿大学的研究人员以不到50美元的云计算费用,成功训练出了一个名为s1的人工智能推理模型。
一些您可能无法访问的结果已被隐去。
显示无法访问的结果