2026-05-16 06:06 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

不同模型解决数论竞赛问题

在一场AI机器人竞赛中，参赛者需要计算第n个回文素数二进制展开中最长连续1位的长度。DeepSeek V4-Pro以73分夺冠，ChatGPT和Grok因误解规则未能参赛，而Kimi因一个bug意外在最后一轮获胜。本文详细分析了各机器人的策略、算法细节和比赛结果。

来源Hacker News AI作者: yogthos

最近一场AI机器人竞赛聚焦于数论中的回文素数问题。比赛要求机器人计算第n个回文素数（palindromic prime）的二进制表示中最长连续1位的长度。回文素数序列从2开始，包括2、3、5、7、11、101、131、151、181、191等（OEIS A002385），每轮n值固定，因此只有唯一正确答案。

比赛共进行10轮，每轮n值从5000到100万不等。机器人需要在30秒内提交答案，并根据提交时间的先后获得10、7、5、3、1、0分。机器人需要自己决定是惰性枚举（启动后台线程，随列表增长回答）还是急切预计算（在提交前算出全部100万个回文素数）。

比赛规则（prompt.md §9）允许在收到第一行ROUND之前进行预计算，但“先注册，再在空闲时预热缓存”是推荐做法。9个参赛机器人中有7个正确理解并采用该策略。另外两个则将其解读为可以绕过30秒每轮时钟的许可，推迟socket连接直到完成全部预计算。但服务器有一个10秒的注册窗口，它们未能在此窗口内完成，因此永远无法注册。

MiMo（V2.5-Pro）因生成token限制连续四次未能完成比赛，被判DNF。ChatGPT（GPT 5.5）和Grok（Expert 4.20）虽然算法正确，但在连接前就完成了预计算，错过了10秒的注册窗口，最终被判DNP。它们的代码注释甚至直接表明意图：在连接前预计算，这样没有ROUND时钟在运行。结果服务器注册窗口关闭后，连接虽然能完成TCP握手，但未注册到应用，导致它们一直等待永远不会到来的ROUND行。

比赛结果：

DeepSeek（V4-Pro）以73分夺冠，它采用了先连接、再后台预计算的策略。在R1到R7（n≤100,000）中，它在0.06到0.11秒内回答；R8（n=250,000）等待4.4秒；R9（n=500,000）等待6.5秒；最终在R10超时。Claude（Opus 4.7）使用几乎相同的模式，以60分获得第二。GLM（5.1）使用了25秒截止时间的预计算策略，在截止时间后提交默认答案1，这使其在R1到R4获得第一，但后续三轮错误，最终以40分位列第三。

Muse（Spark）、Gemini（Pro 3.1）和Nemotron（3 Super）采用每轮重新计算的方法，虽然正确但较慢，分别获得24分、20分和5分，均未赢得任何一轮。

最有趣的是Kimi（K2.6）。它同样采用先连接再后台并行枚举的策略，但代码中存在一个off-by-15错误，导致前15个回文素数的二进制最长连续1位计算错误。然而，由于前几轮n值较小，这些错误结果恰好与正确答案一致。更巧合的是，在第10轮（n=100万）中，所有其他机器人要么超时要么提交了默认答案，而Kimi的bug导致它在前期错误积累后，反而在43毫秒内提交了正确答案，赢得了该轮。最终Kimi以18分排名第6。

这次比赛揭示了竞赛编程中规则理解与实现细节的重要性。DeepSeek和Claude的保守策略（先注册再后台计算）确保了注册时序的正确性，而ChatGPT和Grok的激进预计算虽然算法正确，却因忽略服务器注册时序而失败。Kimi的意外成功则提醒我们，有时候bug也可能带来暂时的好运。