Lilian Weng AI 新聞來源

公開文章 10採集文章 11可信度 88刷新頻率 720 分鐘

健康狀態健康來源類型研究原文權限 允許原文最近入庫 2026-06-26ID lilian-weng運行狀態 已啟用

Public independent AI research blog; verify individual post license before full body display.

最新公開文章

仔細審視縮放定律

2026-06-24 08:00 UTC+8

縮放定律是深度學習中最重要的實證發現之一，描述了模型規模、數據集大小和計算量與損失之間的冪律關係。本文回顧了從早期理論到現代實證研究的發展，包括Kaplan等人的經典縮放定律和Chinchilla縮放定律，並討論了計算最優分配等重要結論。

縮放定律表明訓練損失隨模型規模、數據大小和計算量的增加呈冪律下降。
Kaplan等人發現模型規模應比數據集增長更快，而Chinchilla定律推翻了這一觀點。

強化學習中的獎勵黑客攻擊

2024-11-28 08:00 UTC+8

獎勵黑客攻擊是指強化學習智能體利用獎勵函數的缺陷或歧義來獲取高獎勵，而沒有真正學習或完成預期任務的行為。隨着語言模型的普及和RLHF成為對齊訓練的主要方法，獎勵黑客攻擊已成為關鍵的實際挑戰。本文詳細介紹了獎勵黑客攻擊的定義、類型、原因以及緩解策略。

獎勵黑客攻擊是智能體利用獎勵函數缺陷獲取高獎勵的行為。
RLHF中的獎勵黑客攻擊可能導致模型生成看似正確但實際錯誤的輸出。

大型語言模型中的外部幻覺

2024-07-07 08:00 UTC+8

本文由Lilian Weng撰寫，深入探討了大型語言模型（LLM）中的外部幻覺問題，即模型生成不基於上下文或世界知識的虛假內容。文章分析了幻覺的成因，包括預訓練數據缺陷和微調新知識的風險，介紹了檢索增強評估、採樣一致性檢測等幻覺檢測方法，並綜述了檢索增強生成、驗證鏈、採樣調整、事實性微調等抗幻覺技術。

外部幻覺是指模型輸出完全虛構，不基於上下文或世界知識。
微調新知識可能增加幻覺傾向，因為模型對未知示例學習較慢。

擴散模型在圖像合成方面取得了顯著成果，現在研究界正轉向更困難的視頻生成任務。本文回顧了從零開始設計擴散視頻模型的方法，包括參數化、採樣、3D U-Net和DiT架構，以及通過微調或免訓練適應將圖像模型擴展到視頻的技術。重點介紹了VDM、Imagen Video、Sora、Make-A-Video、Tune-A-Video、Video LDM、Stable Video Diffusion、Lumiere、Text2Video-Zero和ControlVideo等代表性工作。

視頻生成比圖像生成更具挑戰性，需要時間一致性和更多世界知識。
主流架構包括3D U-Net和DiT（擴散Transformer），前者如VDM和Imagen Video，後者如Sora。

思考高質量人類數據

2024-02-05 08:00 UTC+8

高質量數據是現代深度學習模型訓練的燃料。本文探討了如何通過人類標註收集高質量數據，包括任務設計、標註員選擇與培訓、數據聚合等操作步驟。文章還介紹了眾包智慧、標註者一致性評估方法（如Cohen's Kappa、MACE）以及兩種標註範式（描述性與規範性）。此外，討論了利用影響函數、訓練動態（如數據映射、遺忘事件、AUM）和噪聲交叉驗證來識別錯誤標籤的技術。

高質量數據依賴細緻的人類標註流程，包括任務設計、標註員選擇和培訓。
眾包聚合方法如多數投票和Cohen's Kappa可用於評估標註質量。

大型語言模型的對抗性攻擊

2023-10-25 08:00 UTC+8

本文全面調查了針對大型語言模型的對抗性攻擊，涵蓋威脅模型、攻擊類型（包括標記操縱、基於梯度的攻擊、越獄提示和紅隊測試技術），並討論了黑盒和白盒設置下的挑戰與方法。

具有安全對齊的LLM容易受到觸發不良輸出的對抗性輸入的影響。
攻擊範圍從簡單的標記替換到複雜的基於梯度的優化。

LLM驅動的自主智能體

2023-06-23 08:00 UTC+8

本文深入探討了以大語言模型（LLM）為核心控制器的自主智能體系統。系統包含規劃、記憶和工具使用三大組件：規劃通過任務分解和自我反思實現複雜任務處理；記憶分為短期（上下文學習）和長期（外部向量存儲）；工具使用使智能體能調用外部API。文章還介紹了多個案例（如ChemCrow、生成式智能體）和概念驗證（AutoGPT、GPT-Engineer、BabyAGI），並討論了有限上下文窗口等挑戰。

LLM作為自主智能體的核心，結合規劃、記憶和工具使用三大組件
規劃通過子目標分解和自我反思提升複雜任務處理能力

提示工程

2023-03-15 08:00 UTC+8

本文全面介紹了提示工程的概念、方法及其在大型語言模型中的應用，涵蓋從基礎提示到高級技術的各個方面，包括零樣本、少樣本、指令提示、自一致性採樣、思維鏈、自動提示設計和增強型語言模型等。

提示工程通過設計輸入提示來引導LLM輸出，無需更新模型權重。
零樣本和少樣本學習是最基本的提示方法，少樣本通常表現更好但消耗更多Token。

Transformer家族2.0版

2023-01-27 08:00 UTC+8

本文是Lilian Weng對2020年《Transformer家族》一文的重大更新，篇幅翻倍。文章系統梳理了近年來Transformer架構的眾多改進，涵蓋注意力機制、位置編碼、長上下文支持、自適應建模和高效注意力等核心主題，並納入Transformer-XL、Rotary位置嵌入、ALiBi、通用Transformer等最新進展。

新版文章結構重組，新增大量近三年論文，內容更豐富。
詳細介紹多種位置編碼方法，包括正弦、學習、相對和旋轉位置嵌入。

大型Transformer模型推理優化

2023-01-11 01:00 UTC+8

全面概述優化大型Transformer模型推理的技術，包括蒸餾、量化、剪枝、稀疏化、混合專家和架構改進。文章討論了內存佔用和低並行性等挑戰，並提出了減少內存使用、計算和延遲的方法。

KV緩存對於大批量大小可達3TB。
蒸餾將模型大小減少40%，性能損失極小。

Lilian Weng