仔細審視縮放定律
縮放定律是深度學習中最重要的實證發現之一,描述了模型規模、資料集大小和計算量與損失之間的冪律關係。本文回顧了從早期理論到現代實證研究的發展,包括Kaplan等人的經典縮放定律和Chinchilla縮放定律,並討論了計算最優分配等重要結論。
- 縮放定律表明訓練損失隨模型規模、資料大小和計算量的增加呈冪律下降。
- Kaplan等人發現模型規模應比資料集增長更快,而Chinchilla定律推翻了這一觀點。
Public independent AI research blog; verify individual post license before full body display.
縮放定律是深度學習中最重要的實證發現之一,描述了模型規模、資料集大小和計算量與損失之間的冪律關係。本文回顧了從早期理論到現代實證研究的發展,包括Kaplan等人的經典縮放定律和Chinchilla縮放定律,並討論了計算最優分配等重要結論。
獎勵駭客攻擊是指強化學習智慧體利用獎勵函式的缺陷或歧義來獲取高獎勵,而沒有真正學習或完成預期任務的行為。隨著語言模型的普及和RLHF成為對齊訓練的主要方法,獎勵駭客攻擊已成為關鍵的實際挑戰。本文詳細介紹了獎勵駭客攻擊的定義、型別、原因以及緩解策略。
本文由Lilian Weng撰寫,深入探討了大型語言模型(LLM)中的外部幻覺問題,即模型生成不基於上下文或世界知識的虛假內容。文章分析了幻覺的成因,包括預訓練資料缺陷和微調新知識的風險,介紹了檢索增強評估、取樣一致性檢測等幻覺檢測方法,並綜述了檢索增強生成、驗證鏈、取樣調整、事實性微調等抗幻覺技術。
擴散模型在影像合成方面取得了顯著成果,現在研究界正轉向更困難的影片生成任務。本文回顧了從零開始設計擴散影片模型的方法,包括引數化、取樣、3D U-Net和DiT架構,以及透過微調或免訓練適應將影像模型擴充套件到影片的技術。重點介紹了VDM、Imagen Video、Sora、Make-A-Video、Tune-A-Video、Video LDM、Stable Video Diffusion、Lumiere、Text2Video-Zero和ControlVideo等代表性工作。
高質量資料是現代深度學習模型訓練的燃料。本文探討了如何透過人類標註收集高質量資料,包括任務設計、標註員選擇與培訓、資料聚合等操作步驟。文章還介紹了眾包智慧、標註者一致性評估方法(如Cohen's Kappa、MACE)以及兩種標註正規化(描述性與規範性)。此外,討論了利用影響函式、訓練動態(如資料對映、遺忘事件、AUM)和噪聲交叉驗證來識別錯誤標籤的技術。
本文全面調查了針對大型語言模型的對抗性攻擊,涵蓋威脅模型、攻擊型別(包括標記操縱、基於梯度的攻擊、越獄提示和紅隊測試技術),並討論了黑盒和白盒設定下的挑戰與方法。
本文深入探討了以大語言模型(LLM)為核心控制器的自主智慧體系統。系統包含規劃、記憶和工具使用三大元件:規劃透過任務分解和自我反思實現複雜任務處理;記憶分為短期(上下文學習)和長期(外部向量儲存);工具使用使智慧體能呼叫外部API。文章還介紹了多個案例(如ChemCrow、生成式智慧體)和概念驗證(AutoGPT、GPT-Engineer、BabyAGI),並討論了有限上下文視窗等挑戰。
本文全面介紹了提示工程的概念、方法及其在大型語言模型中的應用,涵蓋從基礎提示到高階技術的各個方面,包括零樣本、少樣本、指令提示、自一致性取樣、思維鏈、自動提示設計和增強型語言模型等。
本文是Lilian Weng對2020年《Transformer家族》一文的重大更新,篇幅翻倍。文章系統梳理了近年來Transformer架構的眾多改進,涵蓋注意力機制、位置編碼、長上下文支援、自適應建模和高效注意力等核心主題,並納入Transformer-XL、Rotary位置嵌入、ALiBi、通用Transformer等最新進展。
全面概述最佳化大型Transformer模型推理的技術,包括蒸餾、量化、剪枝、稀疏化、混合專家和架構改進。文章討論了記憶體佔用和低並行性等挑戰,並提出了減少記憶體使用、計算和延遲的方法。