DeepSeek-R1的表现值得一提,该模型在数学能力基准测试中的准确率达到了77.5%,在Codeforces评测中得了2441分,超过了96.3%的人类选手。这一成绩被认为与OpenAI的最强推理模型不相上下,却在API使用成本上低了90%-95%。
早在 12 月份,Google 首次宣布了 Gemini 2.0 Flash 机型,该机型在关键基准测试中的表现优于 Gemini 1.5 Pro 机型,速度也提高了 2 倍。 Gemini 2.0 Flash ...
近日,中科院物理所在江苏省溧阳市举办了“天目杯”理论物理竞赛,并用DeepSeek-R1、GPT-o1和Claude-sonnet三个AI模型对竞赛试题进行了测试。结果显示,DeepSeek-R1表现最佳。 我国“深度求索”公司发布的开源大模型DeepSeek-R1引起了全球关注。在此之前,美国OpenAI公司的GPT-o1、Anthropic公司的Claude以及Google公司的Gemini等 ...