AI News HubLIVE
站内改写

不同模型解决数论竞赛问题

在一场AI机器人竞赛中,参赛者需要计算第n个回文素数二进制展开中最长连续1位的长度。DeepSeek V4-Pro以73分夺冠,ChatGPT和Grok因误解规则未能参赛,而Kimi因一个bug意外在最后一轮获胜。本文详细分析了各机器人的策略、算法细节和比赛结果。

文章情报

工程师中级

要点

  • DeepSeek以73分获得第一,Claude和GLM分列二三名。
  • ChatGPT和Grok因在注册窗口内未完成预计算而被判未参赛。
  • Kimi因一个off-by-15错误导致前15个结果错误,但巧合下赢得了第10轮。
  • 大多数机器人采用预计算策略,但只有少数正确理解了注册时序。

为什么重要

这条新闻值得关注,因为DeepSeek以73分获得第一,Claude和GLM分列二三名。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

最近一场AI机器人竞赛聚焦于数论中的回文素数问题。比赛要求机器人计算第n个回文素数(palindromic prime)的二进制表示中最长连续1位的长度。回文素数序列从2开始,包括2、3、5、7、11、101、131、151、181、191等(OEIS A002385),每轮n值固定,因此只有唯一正确答案。

比赛共进行10轮,每轮n值从5000到100万不等。机器人需要在30秒内提交答案,并根据提交时间的先后获得10、7、5、3、1、0分。机器人需要自己决定是惰性枚举(启动后台线程,随列表增长回答)还是急切预计算(在提交前算出全部100万个回文素数)。

比赛规则(prompt.md §9)允许在收到第一行ROUND之前进行预计算,但“先注册,再在空闲时预热缓存”是推荐做法。9个参赛机器人中有7个正确理解并采用该策略。另外两个则将其解读为可以绕过30秒每轮时钟的许可,推迟socket连接直到完成全部预计算。但服务器有一个10秒的注册窗口,它们未能在此窗口内完成,因此永远无法注册。

MiMo(V2.5-Pro)因生成token限制连续四次未能完成比赛,被判DNF。ChatGPT(GPT 5.5)和Grok(Expert 4.20)虽然算法正确,但在连接前就完成了预计算,错过了10秒的注册窗口,最终被判DNP。它们的代码注释甚至直接表明意图:在连接前预计算,这样没有ROUND时钟在运行。结果服务器注册窗口关闭后,连接虽然能完成TCP握手,但未注册到应用,导致它们一直等待永远不会到来的ROUND行。

比赛结果:

DeepSeek(V4-Pro)以73分夺冠,它采用了先连接、再后台预计算的策略。在R1到R7(n≤100,000)中,它在0.06到0.11秒内回答;R8(n=250,000)等待4.4秒;R9(n=500,000)等待6.5秒;最终在R10超时。Claude(Opus 4.7)使用几乎相同的模式,以60分获得第二。GLM(5.1)使用了25秒截止时间的预计算策略,在截止时间后提交默认答案1,这使其在R1到R4获得第一,但后续三轮错误,最终以40分位列第三。

Muse(Spark)、Gemini(Pro 3.1)和Nemotron(3 Super)采用每轮重新计算的方法,虽然正确但较慢,分别获得24分、20分和5分,均未赢得任何一轮。

最有趣的是Kimi(K2.6)。它同样采用先连接再后台并行枚举的策略,但代码中存在一个off-by-15错误,导致前15个回文素数的二进制最长连续1位计算错误。然而,由于前几轮n值较小,这些错误结果恰好与正确答案一致。更巧合的是,在第10轮(n=100万)中,所有其他机器人要么超时要么提交了默认答案,而Kimi的bug导致它在前期错误积累后,反而在43毫秒内提交了正确答案,赢得了该轮。最终Kimi以18分排名第6。

这次比赛揭示了竞赛编程中规则理解与实现细节的重要性。DeepSeek和Claude的保守策略(先注册再后台计算)确保了注册时序的正确性,而ChatGPT和Grok的激进预计算虽然算法正确,却因忽略服务器注册时序而失败。Kimi的意外成功则提醒我们,有时候bug也可能带来暂时的好运。