fine-tune 精确调整

来自MSN2 天

DeepSeek R1/R1-Zero让RL大火，SFT就无用了吗？滑铁卢与卡内基梅隆大学带来一种全新范式批判微调（CFT：Critique Fine-Tuning，已开源），即让模型学习对有噪声的回答进行批判，而不是简单地模仿正确的回答。

来自MSN10 小时

继DeepSeek掀起轩然大波之后，AI圈这两天再次被“震惊”。近日有媒体报道称，李飞飞等斯坦福大学和华盛顿大学的研究人员以不到50美元的云计算费用，成功训练出了一个名为s1的人工智能推理模型。

一些您可能无法访问的结果已被隐去。

今日热点