2025年十大人工智能研究論文
2025年AI研究從聊天機器人轉向推理系統、自主代理和多模態系統。十大論文包括DeepSeek-R1(強化學習)、Gemini 2.5(多模態推理)、Qwen2.5(開源模型)、Large Concept Models(概念級語言建模)、ESG分析抗漂綠、VideoWorld(世界模型)、AI Scientist-v2(自主研究)、SWE-Lancer(編碼代理基準)、OLMo 2(完全開源)和Mixture-of-Recursions(高效推理)。
文章情報
要點
- DeepSeek-R1將強化學習後訓練方法公開,顯著提升推理和編碼能力。
- Gemini 2.5引入“思考模式”,擴展多模態理解和長上下文。
- 開源模型如Qwen2.5和OLMo 2強調透明度和多語言性能。
- AI Scientist-v2和SWE-Lancer推動自主研究和真實世界編碼評估。
為甚麼重要
這條新聞值得關注,因為DeepSeek-R1將強化學習後訓練方法公開,顯著提升推理和編碼能力。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
2025年,人工智能研究經歷了重大轉變。行業焦點從聊天機器人轉向推理系統、自主代理和多模態系統。谷歌DeepMind、OpenAI、Anthropic、Meta、DeepSeek和NVIDIA等公司發佈了多篇重要論文,集中在推理、編碼代理、強化學習和可擴展安全系統上。以下是對2025年AI研究社區影響最大的十篇論文。
- DeepSeek-R1(類別:強化學習/推理)
DeepSeek-R1是2025年開源模型突破之一。它將強化學習作為模型後訓練方法公開,此前這一技術主要被OpenAI和Anthropic等專有模型公司使用。該論文在數學、編碼和思維鏈推理方面表現出色,並引起了人們對混合專家(MoE)架構的廣泛關注。它還加劇了全球對中國快速發展的前沿AI生態的討論。效果:通過強化學習改進推理,在編碼和數學上表現強勁,成為2025年最受討論的開源模型發佈之一。
- Gemini 2.5技術報告(類別:多模態推理)
谷歌DeepMind的Gemini 2.5論文標誌着從純規模擴展向推理聚焦AI系統的重大轉變。報告介紹了長上下文推理、多模態理解、編碼性能和代理工作流方面的重大改進。其中“思考模式”允許模型在生成輸出前進行擴展內部推理,是備受關注的功能之一。該論文還通過Nano Banana為圖像生成鋪平了道路。效果:擴展了跨文本、視頻和圖像的多模態理解,支持超長上下文窗口,增強了工具使用和代理工作流。
- Qwen 2.5技術報告(類別:開源前沿模型)
阿里巴巴的Qwen2.5論文成為2025年最強的開源模型發佈之一。報告介紹了多語言推理、編碼性能、長上下文理解方面的改進,並引起了人們對混合MoE架構的關注。Qwen2.5還加強了中國在前沿開源模型開發中的影響力。效果:改進了多語言和推理性能,擴展了長上下文能力,加強了開源前沿AI競爭。
- 大語言擴散模型(類別:下一代語言建模)
該論文探索了替代逐詞生成文本的方法,在句子和概念層面建模語言。它提出了一種超越標準自迴歸變換器的可能未來——模型在更高層次的語義表示空間中運行,而非預測下一個詞。效果:探索了概念級語言建模,減少了對逐詞生成的依賴,提出了變換器工作流的替代方案。
- 面向抗漂綠風險的穩健ESG分析(類別:AI可持續發展/ESG智能)
該論文研究了AI系統如何更可靠地檢測ESG報告和可持續發展披露中的“漂綠”行為。研究人員提出了一個方面-動作分析框架,以改善語言模型跨行業理解可持續性能的能力,重點分析公司行為是否與其ESG聲明一致。效果:改進了基於AI的漂綠檢測,引入了方面-動作ESG分析框架,增強了跨領域泛化能力,推動了LLM在ESG智能和合規監控中的應用。
- VideoWorld:從無標籤視頻探索知識學習(類別:視頻處理/機器人學)
字節跳動的VideoWorld論文專注於幫助AI系統直接從無標籤視頻數據中學習物理理解。該工作在機器人學和具身AI中具有重要意義,因為它通過世界模型學習連接了預測、模擬和物理推理。效果:提出了視頻驅動的世界模型,改進了物理推理能力,推進了機器人導向的AI學習,連接了視頻理解和具身規劃。
- AI Scientist-v2(類別:自主AI研究)
該論文擴展了自主研究系統,使其能夠生成假設、設計實驗、評估結果並撰寫科學報告。它成為討論遞歸AI改進和自動化科學發現的核心。效果:推進了自主研究工作流,結合了文獻綜述、實驗和報告,展示了部分自動化的科學循環,引發了對AI驅動發現系統的思考。
- SWE-Lancer:前沿LLM能否從真實世界自由軟件工程中賺取100萬美元?(類別:AI編碼代理)
OpenAI的SWE-Lancer論文成為年度最廣泛討論的基準論文之一,因為它評估模型對實際自由工程任務的表現,而非合成編碼問題。基準包括調試、功能實現、倉庫導航和項目級工程任務,源自真實自由工作。該論文將AI性能直接與經濟價值掛鈎,而非抽象基準分數。效果:引入了AI編碼代理的真實世界基準,評估了倉庫級工程性能,突出了基準編碼與生產工程之間的差距。
- OLMo 2:迄今為止最好的“完全”開放語言模型(類別:開放語言模型)
OLMo 2成為2025年最重要的完全開放AI模型論文之一,因為它強調訓練數據、架構和方法論的完全透明。該論文加強了可重複開放AI研究的推動。效果:發佈了完全開放的訓練方法論,提高了LLM開發的透明度,成為開放可重複性的主要基準。
- 遞歸混合:學習動態遞歸深度(類別:高效AI架構)
該論文不採用固定深度,而是根據任務複雜度動態分配遞歸推理。它提出了一條計算高效推理系統的道路,無需單純擴大模型規模。效果:引入了自適應遞歸推理,減少了不必要的計算,提高了推理效率。
最終結論 2025年AI研究的最大趨勢是從被動語言模型轉向推理系統和自主代理。最重要的論文揭示了五個行業轉變:前沿實驗室優先考慮推理而非盲目擴展;AI代理進入真實工作流;安全研究日益對抗性;世界模型和機器人學重回焦點;自主AI研究系統變得現實。AI系統已進化為能夠規劃、自我糾正、協作並在複雜真實環境中運行的持久推理代理。