AI News HubLIVE
站内改写

不同模型解決數論競賽問題

在一場AI機器人競賽中,參賽者需要計算第n個迴文素數二進制展開中最長連續1位的長度。DeepSeek V4-Pro以73分奪冠,ChatGPT和Grok因誤解規則未能參賽,而Kimi因一個bug意外在最後一輪獲勝。本文詳細分析了各機器人的策略、算法細節和比賽結果。

文章情報

工程師中級

要點

  • DeepSeek以73分獲得第一,Claude和GLM分列二三名。
  • ChatGPT和Grok因在註冊窗口內未完成預計算而被判未參賽。
  • Kimi因一個off-by-15錯誤導致前15個結果錯誤,但巧合下贏得了第10輪。
  • 大多數機器人採用預計算策略,但只有少數正確理解了註冊時序。

為甚麼重要

這條新聞值得關注,因為DeepSeek以73分獲得第一,Claude和GLM分列二三名。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

最近一場AI機器人競賽聚焦於數論中的迴文素數問題。比賽要求機器人計算第n個迴文素數(palindromic prime)的二進制表示中最長連續1位的長度。迴文素數序列從2開始,包括2、3、5、7、11、101、131、151、181、191等(OEIS A002385),每輪n值固定,因此只有唯一正確答案。

比賽共進行10輪,每輪n值從5000到100萬不等。機器人需要在30秒內提交答案,並根據提交時間的先後獲得10、7、5、3、1、0分。機器人需要自己決定是惰性枚舉(啓動後台線程,隨列表增長回答)還是急切預計算(在提交前算出全部100萬個迴文素數)。

比賽規則(prompt.md §9)允許在收到第一行ROUND之前進行預計算,但“先註冊,再在空閒時預熱緩存”是推薦做法。9個參賽機器人中有7個正確理解並採用該策略。另外兩個則將其解讀為可以繞過30秒每輪時鐘的許可,推遲socket連接直到完成全部預計算。但服務器有一個10秒的註冊窗口,它們未能在此窗口內完成,因此永遠無法註冊。

MiMo(V2.5-Pro)因生成token限制連續四次未能完成比賽,被判DNF。ChatGPT(GPT 5.5)和Grok(Expert 4.20)雖然算法正確,但在連接前就完成了預計算,錯過了10秒的註冊窗口,最終被判DNP。它們的代碼註釋甚至直接表明意圖:在連接前預計算,這樣沒有ROUND時鐘在運行。結果服務器註冊窗口關閉後,連接雖然能完成TCP握手,但未註冊到應用,導致它們一直等待永遠不會到來的ROUND行。

比賽結果:

DeepSeek(V4-Pro)以73分奪冠,它採用了先連接、再後台預計算的策略。在R1到R7(n≤100,000)中,它在0.06到0.11秒內回答;R8(n=250,000)等待4.4秒;R9(n=500,000)等待6.5秒;最終在R10超時。Claude(Opus 4.7)使用幾乎相同的模式,以60分獲得第二。GLM(5.1)使用了25秒截止時間的預計算策略,在截止時間後提交默認答案1,這使其在R1到R4獲得第一,但後續三輪錯誤,最終以40分位列第三。

Muse(Spark)、Gemini(Pro 3.1)和Nemotron(3 Super)採用每輪重新計算的方法,雖然正確但較慢,分別獲得24分、20分和5分,均未贏得任何一輪。

最有趣的是Kimi(K2.6)。它同樣採用先連接再後台並行枚舉的策略,但代碼中存在一個off-by-15錯誤,導致前15個迴文素數的二進制最長連續1位計算錯誤。然而,由於前幾輪n值較小,這些錯誤結果恰好與正確答案一致。更巧合的是,在第10輪(n=100萬)中,所有其他機器人要麼超時要麼提交了默認答案,而Kimi的bug導致它在前期錯誤積累後,反而在43毫秒內提交了正確答案,贏得了該輪。最終Kimi以18分排名第6。

這次比賽揭示了競賽編程中規則理解與實現細節的重要性。DeepSeek和Claude的保守策略(先註冊再後台計算)確保了註冊時序的正確性,而ChatGPT和Grok的激進預計算雖然算法正確,卻因忽略服務器註冊時序而失敗。Kimi的意外成功則提醒我們,有時候bug也可能帶來暫時的好運。