2026-05-25 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

RMA：面向研究級數學問題的智慧系統

研究數學智慧體（RMA）是一個專為研究級數學問題設計的自動化推理框架，透過多代理協作和迭代最佳化，在First Proof基準上解決了10個問題中的8個，超越了GPT-5.2R和Aletheia等強基線。

來源arXiv AI作者: Zelin Zhao, Bo Yuan, Jaemoo Choi, Yongxin Chen

文章情報

工程師進階

要點

RMA將研究級證明求解分解為問題分析、文獻搜尋、公平比較、知識庫構建和證明驗證等專門模組。
採用初始化器、提出者和驗證者三種智慧體協同工作，透過共享結構化記憶進行多輪迭代。
在涵蓋多個數學領域的First Proof基準上，RMA成功解決了8/10個問題，生成的證明更邏輯嚴謹且可讀性強。
消融實驗表明，效能提升源於結構化推理模組、迭代最佳化和驗證器反饋的相互作用，而非單一元件。

為什麼重要

這條新聞值得關注，因為RMA將研究級證明求解分解為問題分析、文獻搜尋、公平比較、知識庫構建和證明驗證等專門模組。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

本面板由 AI 生成，經人工審核。

近日，一項名為“研究數學智慧體”（Research Math Agents, RMA）的框架在人工智慧與數學交叉領域引起廣泛關注。該框架由Zelin Zhao等四位研究者共同提出，論文於2026年5月20日提交至arXiv預印本平臺。RMA旨在自動推理研究級數學問題，這類問題通常需要長期推理、文獻支撐和迭代證明完善，遠比競賽數學或形式定理證明覆雜。

與以往聚焦於競賽數學或形式定理證明的研究不同，RMA專門針對研究級數學問題。它將證明求解過程分解為多個專門模組：問題分析模組負責理解問題核心；文獻搜尋與理解模組自動檢索相關數學文獻；公平比較模組確保不同方法間的公正對比；知識庫構建模組積累領域知識；證明驗證模組檢查邏輯正確性。這些模組由三種智慧體協調運作：初始化器（Initializer）設定初始方向，提出者（Proposer）生成候選證明，驗證者（Verifier）評估證明質量。它們透過共享的結構化記憶進行多輪協作，不斷最佳化候選證明。

RMA在First Proof基準上進行了全面評估。該基準由十位數學專家貢獻了十個跨領域的研究級問題，涵蓋代數學、數論、幾何學、組合學等多個數學分支。經過專家評審，RMA成功解決了其中八個問題，表現優於GPT-5.2R和Aletheia等強基線模型。更重要的是，RMA生成的證明在邏輯嚴謹性和可讀性方面均優於其他方法。

進一步的消融研究揭示，效能提升並非源於單一元件，而是結構化推理模組、迭代最佳化過程和驗證器反饋相互作用的綜合結果。研究團隊表示，將在論文被正式接收後公開發布相關解決方案和實現程式碼，以促進AI在高階數學研究中的應用。

這一成果為AI在高階數學研究中的應用開闢了新路徑，展示了智慧體系統在複雜推理任務中的巨大潛力。RMA的成功表明，透過模組化設計和多智慧體協作，AI可以逐步攻克需要深度推理的科研難題，未來可能對數學發現和自動化推理產生深遠影響。