2026-05-16 06:06 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

不同模型解決數論競賽問題

在一場AI機器人競賽中，參賽者需要計算第n個迴文素數二進制展開中最長連續1位的長度。DeepSeek V4-Pro以73分奪冠，ChatGPT和Grok因誤解規則未能參賽，而Kimi因一個bug意外在最後一輪獲勝。本文詳細分析了各機器人的策略、算法細節和比賽結果。

來源Hacker News AI作者: yogthos

最近一場AI機器人競賽聚焦於數論中的迴文素數問題。比賽要求機器人計算第n個迴文素數（palindromic prime）的二進制表示中最長連續1位的長度。迴文素數序列從2開始，包括2、3、5、7、11、101、131、151、181、191等（OEIS A002385），每輪n值固定，因此只有唯一正確答案。

比賽共進行10輪，每輪n值從5000到100萬不等。機器人需要在30秒內提交答案，並根據提交時間的先後獲得10、7、5、3、1、0分。機器人需要自己決定是惰性枚舉（啓動後台線程，隨列表增長回答）還是急切預計算（在提交前算出全部100萬個迴文素數）。

比賽規則（prompt.md §9）允許在收到第一行ROUND之前進行預計算，但“先註冊，再在空閒時預熱緩存”是推薦做法。9個參賽機器人中有7個正確理解並採用該策略。另外兩個則將其解讀為可以繞過30秒每輪時鐘的許可，推遲socket連接直到完成全部預計算。但服務器有一個10秒的註冊窗口，它們未能在此窗口內完成，因此永遠無法註冊。

MiMo（V2.5-Pro）因生成token限制連續四次未能完成比賽，被判DNF。ChatGPT（GPT 5.5）和Grok（Expert 4.20）雖然算法正確，但在連接前就完成了預計算，錯過了10秒的註冊窗口，最終被判DNP。它們的代碼註釋甚至直接表明意圖：在連接前預計算，這樣沒有ROUND時鐘在運行。結果服務器註冊窗口關閉後，連接雖然能完成TCP握手，但未註冊到應用，導致它們一直等待永遠不會到來的ROUND行。

比賽結果：

DeepSeek（V4-Pro）以73分奪冠，它採用了先連接、再後台預計算的策略。在R1到R7（n≤100,000）中，它在0.06到0.11秒內回答；R8（n=250,000）等待4.4秒；R9（n=500,000）等待6.5秒；最終在R10超時。Claude（Opus 4.7）使用幾乎相同的模式，以60分獲得第二。GLM（5.1）使用了25秒截止時間的預計算策略，在截止時間後提交默認答案1，這使其在R1到R4獲得第一，但後續三輪錯誤，最終以40分位列第三。

Muse（Spark）、Gemini（Pro 3.1）和Nemotron（3 Super）採用每輪重新計算的方法，雖然正確但較慢，分別獲得24分、20分和5分，均未贏得任何一輪。

最有趣的是Kimi（K2.6）。它同樣採用先連接再後台並行枚舉的策略，但代碼中存在一個off-by-15錯誤，導致前15個迴文素數的二進制最長連續1位計算錯誤。然而，由於前幾輪n值較小，這些錯誤結果恰好與正確答案一致。更巧合的是，在第10輪（n=100萬）中，所有其他機器人要麼超時要麼提交了默認答案，而Kimi的bug導致它在前期錯誤積累後，反而在43毫秒內提交了正確答案，贏得了該輪。最終Kimi以18分排名第6。

這次比賽揭示了競賽編程中規則理解與實現細節的重要性。DeepSeek和Claude的保守策略（先註冊再後台計算）確保了註冊時序的正確性，而ChatGPT和Grok的激進預計算雖然算法正確，卻因忽略服務器註冊時序而失敗。Kimi的意外成功則提醒我們，有時候bug也可能帶來暫時的好運。