仔細審視縮放定律
縮放定律是深度學習中最重要的實證發現之一,描述了模型規模、數據集大小和計算量與損失之間的冪律關係。本文回顧了從早期理論到現代實證研究的發展,包括Kaplan等人的經典縮放定律和Chinchilla縮放定律,並討論了計算最優分配等重要結論。
- 縮放定律表明訓練損失隨模型規模、數據大小和計算量的增加呈冪律下降。
- Kaplan等人發現模型規模應比數據集增長更快,而Chinchilla定律推翻了這一觀點。
Public independent AI research blog; verify individual post license before full body display.
縮放定律是深度學習中最重要的實證發現之一,描述了模型規模、數據集大小和計算量與損失之間的冪律關係。本文回顧了從早期理論到現代實證研究的發展,包括Kaplan等人的經典縮放定律和Chinchilla縮放定律,並討論了計算最優分配等重要結論。
獎勵黑客攻擊是指強化學習智能體利用獎勵函數的缺陷或歧義來獲取高獎勵,而沒有真正學習或完成預期任務的行為。隨着語言模型的普及和RLHF成為對齊訓練的主要方法,獎勵黑客攻擊已成為關鍵的實際挑戰。本文詳細介紹了獎勵黑客攻擊的定義、類型、原因以及緩解策略。
本文由Lilian Weng撰寫,深入探討了大型語言模型(LLM)中的外部幻覺問題,即模型生成不基於上下文或世界知識的虛假內容。文章分析了幻覺的成因,包括預訓練數據缺陷和微調新知識的風險,介紹了檢索增強評估、採樣一致性檢測等幻覺檢測方法,並綜述了檢索增強生成、驗證鏈、採樣調整、事實性微調等抗幻覺技術。
擴散模型在圖像合成方面取得了顯著成果,現在研究界正轉向更困難的視頻生成任務。本文回顧了從零開始設計擴散視頻模型的方法,包括參數化、採樣、3D U-Net和DiT架構,以及通過微調或免訓練適應將圖像模型擴展到視頻的技術。重點介紹了VDM、Imagen Video、Sora、Make-A-Video、Tune-A-Video、Video LDM、Stable Video Diffusion、Lumiere、Text2Video-Zero和ControlVideo等代表性工作。
高質量數據是現代深度學習模型訓練的燃料。本文探討了如何通過人類標註收集高質量數據,包括任務設計、標註員選擇與培訓、數據聚合等操作步驟。文章還介紹了眾包智慧、標註者一致性評估方法(如Cohen's Kappa、MACE)以及兩種標註範式(描述性與規範性)。此外,討論了利用影響函數、訓練動態(如數據映射、遺忘事件、AUM)和噪聲交叉驗證來識別錯誤標籤的技術。
本文全面調查了針對大型語言模型的對抗性攻擊,涵蓋威脅模型、攻擊類型(包括標記操縱、基於梯度的攻擊、越獄提示和紅隊測試技術),並討論了黑盒和白盒設置下的挑戰與方法。
本文深入探討了以大語言模型(LLM)為核心控制器的自主智能體系統。系統包含規劃、記憶和工具使用三大組件:規劃通過任務分解和自我反思實現複雜任務處理;記憶分為短期(上下文學習)和長期(外部向量存儲);工具使用使智能體能調用外部API。文章還介紹了多個案例(如ChemCrow、生成式智能體)和概念驗證(AutoGPT、GPT-Engineer、BabyAGI),並討論了有限上下文窗口等挑戰。
本文全面介紹了提示工程的概念、方法及其在大型語言模型中的應用,涵蓋從基礎提示到高級技術的各個方面,包括零樣本、少樣本、指令提示、自一致性採樣、思維鏈、自動提示設計和增強型語言模型等。
本文是Lilian Weng對2020年《Transformer家族》一文的重大更新,篇幅翻倍。文章系統梳理了近年來Transformer架構的眾多改進,涵蓋注意力機制、位置編碼、長上下文支持、自適應建模和高效注意力等核心主題,並納入Transformer-XL、Rotary位置嵌入、ALiBi、通用Transformer等最新進展。
全面概述優化大型Transformer模型推理的技術,包括蒸餾、量化、剪枝、稀疏化、混合專家和架構改進。文章討論了內存佔用和低並行性等挑戰,並提出了減少內存使用、計算和延遲的方法。