Quora - 搜索 News

11 小时

o3-mini数学推理暴打DeepSeek-R1？AIME 2025初赛曝数据集污染大瓜

【新智元导读】就在刚刚，AIME 2025 I数学竞赛的大模型参赛结果出炉，o3-mini取得78%的最好成绩，DeepSeek R1拿到了65%，取得第四名。然而一位教授却发现，某些1.5B小模型竟也能拿到50%，莫非真的存在数据集污染？

一些您可能无法访问的结果已被隐去。

显示无法访问的结果