Ahead of AI (Sebastian Raschka) AI 新聞來源

公開文章 11採集文章 12可信度 87刷新頻率 720 分鐘

健康狀態健康來源類型研究原文權限 允許原文最近入庫 2026-06-06ID ahead-of-ai運行狀態 已啟用

Public Substack newsletter; free posts allowed.

最新公開文章

LLM研究論文：2026年列表（1月至5月）

2026-06-06 19:16 UTC+8

作者延續往年習慣，整理並分類了2026年1月至5月間值得關注的LLM研究論文，涵蓋架構、訓練、推理效率、推理模型、強化學習、智慧體系統等多個方向，並重點介紹了混合架構趨勢及Nemotron 3等代表性工作。

列表涵蓋推理模型、強化學習、高效推理、智慧體系統等熱門方向
混合架構（如Mamba與注意力層交替）成為2026年重要趨勢

LLM架構最新發展：KV共享、mHC與壓縮注意力

2026-05-16 19:33 UTC+8

從Gemma 4到DeepSeek V4，本文探討了新的開源LLM如何透過跨層KV共享、逐層嵌入、注意力預算、壓縮卷積注意力和mHC等架構技術降低長上下文成本。

Gemma 4引入跨層KV共享，將KV快取大小減半，同時保持模型質量。
逐層嵌入（PLE）透過增加小型嵌入引數提高模型容量，而不顯著增加計算成本。

我理解LLM架構的工作流程

2026-04-18 19:24 UTC+8

一種學習導向的工作流程，用於理解新發布的開源權重模型。從官方技術報告開始，但論文往往不夠詳細；然後利用Hugging Face上的配置檔案和參考實現來獲取架構細節。這個過程主要是手動的，適合開源權重模型，並且手動操作是學習架構的最佳練習之一。

從官方技術報告開始，但論文現在往往不夠詳細
利用Hugging Face上的配置檔案和參考實現來獲取架構細節

編碼智慧體的組成部分

2026-04-04 19:45 UTC+8

本文詳細介紹了編碼智慧體的六大核心元件：即時倉庫上下文、提示形狀與快取重用、工具訪問與使用、最小化上下文膨脹、結構化會話記憶以及委派子智慧體。透過分析這些元件如何協同工作，解釋了為什麼精心設計的編碼工具（如Claude Code和Codex CLI）能使LLM在編碼任務中表現遠勝於簡單的聊天介面。

編碼智慧體透過智慧體框架（harness）整合倉庫上下文、工具使用和記憶管理，顯著提升LLM在編碼任務中的表現。
六大元件包括：即時倉庫上下文、提示形狀與快取重用、工具訪問與使用、最小化上下文膨脹、結構化會話記憶以及委派子智慧體。

本文對2026年1月至2月期間釋出的十大開源大語言模型進行了架構比較和分析，涵蓋Arcee Trinity、Kimi K2.5、Step 3.5 Flash、Qwen3-Coder-Next、GLM-5、MiniMax M2.5、Nanbeige 4.1、Qwen3.5、Ling 2.5以及Tiny Aya，並更新了Sarvam模型。文章重點討論了混合專家架構、注意力機制創新（如門控注意力、門控DeltaNet、閃電注意力）以及多令牌預測等技術趨勢。

十大開源LLM架構對比，涵蓋400B到3B引數規模
混合注意力和多令牌預測成為主流技術趨勢

提升LLM推理能力的推理時間縮放方法分類

2026-01-24 19:23 UTC+8

推理時間縮放是提升已部署LLM答案質量的最有效方法之一。本文對各類推理時間縮放技術進行了清晰分類，並概述了近期相關論文，包括思維鏈提示、自一致性、最佳N排序、帶驗證器的拒絕取樣、自我最佳化以及搜尋解決方案路徑等方法。作者還分享了在編寫相關書籍章節時的個人實驗經驗。

推理時間縮放透過在推理時增加計算和時間投入來提高模型效能
主要方法包括思維鏈、自一致性、最佳N排序、拒絕取樣等

2025年大語言模型現狀：進展、問題與預測

2025-12-30 20:22 UTC+8

本文全面回顧了2025年大語言模型領域的關鍵進展，包括DeepSeek R1透過RLVR/GRPO實現的推理能力突破、推理時擴充套件和工具使用的興起、基準確認過度最佳化（benchmaxxing）問題，以及對2026年的預測，如擴散模型和RLVR的更廣泛應用。

DeepSeek R1的開源推理模型透過RLVR/GRPO主導了2025年，將焦點轉向了訓練後擴充套件。
推理時擴充套件和工具使用成為推動LLM進步的主要動力，超越了傳統的預訓練擴充套件。

LLM研究論文：2025年列表（7月至12月）

2025-12-30 20:15 UTC+8

作者為付費訂閱者整理了2025年7月至12月期間有趣的研究論文列表，涵蓋推理模型、強化學習、架構等多個類別，並附有年度LLM回顧文章的連結。

論文列表作為對支持者的感謝，按類別整理
包含推理模型、強化學習、模型釋出、架構等類別

從DeepSeek V3到V3.2：架構、稀疏注意力與強化學習更新

2025-12-03 20:03 UTC+8

本文深入解讀DeepSeek V3.2的技術演進，涵蓋從V3到V3.2的架構變化（包括稀疏注意力機制DSA）、強化學習更新（如GRPO改進、自我驗證與自我精煉）以及混合推理模型的發展。V3.2在效能上媲美GPT-5和Gemini 3.0 Pro，並採用開源權重發布，重要性不言而喻。

DeepSeek V3.2採用了與V3.2-Exp相同的稀疏注意力機制（DSA），顯著提升長上下文效率。
引入基於DeepSeekMath V2的自我驗證與自我精煉技術，大幅增強數學推理能力。

超越標準大語言模型

2025-11-04 21:06 UTC+8

本文探討了除傳統自迴歸Transformer之外的大語言模型替代架構，包括線性注意力混合模型、文本擴散模型、程式碼世界模型和小型遞迴Transformer。文章分析了每種方法在效率、推理和建模效能上的優勢與侷限，並展望了未來發展方向。

線性注意力混合模型（如Qwen3-Next和Kimi Linear）透過Gated DeltaNet等技術將計算複雜度降至線性，但需在效率和推理精度間取得平衡。
文本擴散模型能並行生成多個token，但面臨質量損失和工具整合困難，目前難以取代自迴歸模型。

理解LLM評估的四種主要方法（從頭實現）：多選題、驗證器、排行榜和LLM裁判

2025-10-05 19:12 UTC+8

本文詳細介紹了評估大型語言模型的四種主要方法：多選題基準（如MMLU）、用於自由形式答案的驗證器、基於使用者偏好的排行榜（如Chatbot Arena）以及LLM裁判評估。文章提供了從頭開始的程式碼實現，並討論了每種方法的優缺點。

多選題基準測試知識回憶，但不反映實際使用情況。
驗證器允許自由形式答案，但需要可驗證的領域（如數學）。

Ahead of AI (Sebastian Raschka)