AI News HubLIVE
公開文章 11採集文章 12可信度 87刷新頻率 720 分鐘
健康狀態 健康來源類型 研究原文權限 允許原文最近入庫 2026-06-06ID ahead-of-ai運行狀態 已啟用

Public Substack newsletter; free posts allowed.

最新公開文章

LLM研究論文:2026年列表(1月至5月)

作者延續往年習慣,整理並分類了2026年1月至5月間值得關注的LLM研究論文,涵蓋架構、訓練、推理效率、推理模型、強化學習、智慧體系統等多個方向,並重點介紹了混合架構趨勢及Nemotron 3等代表性工作。

  • 列表涵蓋推理模型、強化學習、高效推理、智慧體系統等熱門方向
  • 混合架構(如Mamba與注意力層交替)成為2026年重要趨勢
站內正文

LLM架構最新發展:KV共享、mHC與壓縮注意力

從Gemma 4到DeepSeek V4,本文探討了新的開源LLM如何透過跨層KV共享、逐層嵌入、注意力預算、壓縮卷積注意力和mHC等架構技術降低長上下文成本。

  • Gemma 4引入跨層KV共享,將KV快取大小減半,同時保持模型質量。
  • 逐層嵌入(PLE)透過增加小型嵌入引數提高模型容量,而不顯著增加計算成本。
站內正文

我理解LLM架構的工作流程

一種學習導向的工作流程,用於理解新發布的開源權重模型。從官方技術報告開始,但論文往往不夠詳細;然後利用Hugging Face上的配置檔案和參考實現來獲取架構細節。這個過程主要是手動的,適合開源權重模型,並且手動操作是學習架構的最佳練習之一。

  • 從官方技術報告開始,但論文現在往往不夠詳細
  • 利用Hugging Face上的配置檔案和參考實現來獲取架構細節
站內正文

編碼智慧體的組成部分

本文詳細介紹了編碼智慧體的六大核心元件:即時倉庫上下文、提示形狀與快取重用、工具訪問與使用、最小化上下文膨脹、結構化會話記憶以及委派子智慧體。透過分析這些元件如何協同工作,解釋了為什麼精心設計的編碼工具(如Claude Code和Codex CLI)能使LLM在編碼任務中表現遠勝於簡單的聊天介面。

  • 編碼智慧體透過智慧體框架(harness)整合倉庫上下文、工具使用和記憶管理,顯著提升LLM在編碼任務中的表現。
  • 六大元件包括:即時倉庫上下文、提示形狀與快取重用、工具訪問與使用、最小化上下文膨脹、結構化會話記憶以及委派子智慧體。
站內正文

開源大模型之春:2026年1-2月十大架構盤點

本文對2026年1月至2月期間釋出的十大開源大語言模型進行了架構比較和分析,涵蓋Arcee Trinity、Kimi K2.5、Step 3.5 Flash、Qwen3-Coder-Next、GLM-5、MiniMax M2.5、Nanbeige 4.1、Qwen3.5、Ling 2.5以及Tiny Aya,並更新了Sarvam模型。文章重點討論了混合專家架構、注意力機制創新(如門控注意力、門控DeltaNet、閃電注意力)以及多令牌預測等技術趨勢。

  • 十大開源LLM架構對比,涵蓋400B到3B引數規模
  • 混合注意力和多令牌預測成為主流技術趨勢
站內正文

提升LLM推理能力的推理時間縮放方法分類

推理時間縮放是提升已部署LLM答案質量的最有效方法之一。本文對各類推理時間縮放技術進行了清晰分類,並概述了近期相關論文,包括思維鏈提示、自一致性、最佳N排序、帶驗證器的拒絕取樣、自我最佳化以及搜尋解決方案路徑等方法。作者還分享了在編寫相關書籍章節時的個人實驗經驗。

  • 推理時間縮放透過在推理時增加計算和時間投入來提高模型效能
  • 主要方法包括思維鏈、自一致性、最佳N排序、拒絕取樣等
站內正文

2025年大語言模型現狀:進展、問題與預測

本文全面回顧了2025年大語言模型領域的關鍵進展,包括DeepSeek R1透過RLVR/GRPO實現的推理能力突破、推理時擴充套件和工具使用的興起、基準確認過度最佳化(benchmaxxing)問題,以及對2026年的預測,如擴散模型和RLVR的更廣泛應用。

  • DeepSeek R1的開源推理模型透過RLVR/GRPO主導了2025年,將焦點轉向了訓練後擴充套件。
  • 推理時擴充套件和工具使用成為推動LLM進步的主要動力,超越了傳統的預訓練擴充套件。
站內正文

LLM研究論文:2025年列表(7月至12月)

作者為付費訂閱者整理了2025年7月至12月期間有趣的研究論文列表,涵蓋推理模型、強化學習、架構等多個類別,並附有年度LLM回顧文章的連結。

  • 論文列表作為對支持者的感謝,按類別整理
  • 包含推理模型、強化學習、模型釋出、架構等類別
站內正文

從DeepSeek V3到V3.2:架構、稀疏注意力與強化學習更新

本文深入解讀DeepSeek V3.2的技術演進,涵蓋從V3到V3.2的架構變化(包括稀疏注意力機制DSA)、強化學習更新(如GRPO改進、自我驗證與自我精煉)以及混合推理模型的發展。V3.2在效能上媲美GPT-5和Gemini 3.0 Pro,並採用開源權重發布,重要性不言而喻。

  • DeepSeek V3.2採用了與V3.2-Exp相同的稀疏注意力機制(DSA),顯著提升長上下文效率。
  • 引入基於DeepSeekMath V2的自我驗證與自我精煉技術,大幅增強數學推理能力。
站內正文

超越標準大語言模型

本文探討了除傳統自迴歸Transformer之外的大語言模型替代架構,包括線性注意力混合模型、文本擴散模型、程式碼世界模型和小型遞迴Transformer。文章分析了每種方法在效率、推理和建模效能上的優勢與侷限,並展望了未來發展方向。

  • 線性注意力混合模型(如Qwen3-Next和Kimi Linear)透過Gated DeltaNet等技術將計算複雜度降至線性,但需在效率和推理精度間取得平衡。
  • 文本擴散模型能並行生成多個token,但面臨質量損失和工具整合困難,目前難以取代自迴歸模型。
站內正文

理解LLM評估的四種主要方法(從頭實現):多選題、驗證器、排行榜和LLM裁判

本文詳細介紹了評估大型語言模型的四種主要方法:多選題基準(如MMLU)、用於自由形式答案的驗證器、基於使用者偏好的排行榜(如Chatbot Arena)以及LLM裁判評估。文章提供了從頭開始的程式碼實現,並討論了每種方法的優缺點。

  • 多選題基準測試知識回憶,但不反映實際使用情況。
  • 驗證器允許自由形式答案,但需要可驗證的領域(如數學)。
站內正文

全部來源