ImProver 2:用於神經符號證明最佳化的迭代自改進語言模型
ImProver 2是一個神經符號框架,用於自動化Lean 4中的證明最佳化。它透過資料高效的專家迭代流水線和暴露形式結構與輕量級非正式抽象的腳手架,訓練出7B引數的模型,在效能上超越同系列大模型,與中端前沿模型競爭。研究表明,透過適當的腳手架和訓練,小模型也能有效重構研究級證明。
文章情報
工程師進階
要點
- ImProver 2結合專家迭代和神經符號腳手架,高效最佳化形式化證明。
- 7B引數模型優於同系列大模型,與中端前沿模型競爭。
- 腳手架顯著提升小模型和前沿模型的效能。
- 證明最佳化被證明是可擴充套件、可學習的任務。
為什麼重要
這條新聞值得關注,因為ImProver 2結合專家迭代和神經符號腳手架,高效最佳化形式化證明。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
形式化數學庫的快速擴充套件帶來了對已驗證證明進行重構以提升可維護性和神經證明器訓練資料質量的迫切需求。然而,可擴充套件的證明最佳化面臨目標異構且啟發式指定、資料稀缺、訓練和推理成本高等挑戰。為此,研究者提出了ImProver 2,一個用於Lean 4中自動化證明最佳化的神經符號框架。
ImProver 2的核心創新在於結合了資料高效的專家迭代流水線與一個特殊的腳手架,該腳手架既能暴露形式化結構,又能提供輕量級非正式抽象。此外,研究團隊還引入了一套度量標準來捕捉證明的結構屬性。憑藉這一框架,他們訓練了一個70億引數的模型,該模型在效能上不僅超越了同系列中規模大數個數量級的模型,還能與中端前沿模型競爭各項指標。
實驗進一步表明,神經符號腳手架能顯著提升小模型和前沿模型的效能。透過恰當的腳手架和訓練,小型模型能夠有效地在複雜且多樣的指標上重構研究級證明,其效果可與規模大得多的系統相媲美。這項工作確立了證明最佳化作為一個可擴充套件、可學習的任務,為形式化數學的未來發展提供了新的方向。