Lilian Weng AI 新闻来源

公开文章 10采集文章 11可信度 88刷新频率 720 分钟

健康状态健康来源类型研究原文权限 允许原文最近入库 2026-06-26ID lilian-weng运行状态 已启用

Public independent AI research blog; verify individual post license before full body display.

最新公开文章

仔细审视缩放定律

2026-06-24 08:00 UTC+8

缩放定律是深度学习中最重要的实证发现之一，描述了模型规模、数据集大小和计算量与损失之间的幂律关系。本文回顾了从早期理论到现代实证研究的发展，包括Kaplan等人的经典缩放定律和Chinchilla缩放定律，并讨论了计算最优分配等重要结论。

缩放定律表明训练损失随模型规模、数据大小和计算量的增加呈幂律下降。
Kaplan等人发现模型规模应比数据集增长更快，而Chinchilla定律推翻了这一观点。

强化学习中的奖励黑客攻击

2024-11-28 08:00 UTC+8

奖励黑客攻击是指强化学习智能体利用奖励函数的缺陷或歧义来获取高奖励，而没有真正学习或完成预期任务的行为。随着语言模型的普及和RLHF成为对齐训练的主要方法，奖励黑客攻击已成为关键的实际挑战。本文详细介绍了奖励黑客攻击的定义、类型、原因以及缓解策略。

奖励黑客攻击是智能体利用奖励函数缺陷获取高奖励的行为。
RLHF中的奖励黑客攻击可能导致模型生成看似正确但实际错误的输出。

大型语言模型中的外部幻觉

2024-07-07 08:00 UTC+8

本文由Lilian Weng撰写，深入探讨了大型语言模型（LLM）中的外部幻觉问题，即模型生成不基于上下文或世界知识的虚假内容。文章分析了幻觉的成因，包括预训练数据缺陷和微调新知识的风险，介绍了检索增强评估、采样一致性检测等幻觉检测方法，并综述了检索增强生成、验证链、采样调整、事实性微调等抗幻觉技术。

外部幻觉是指模型输出完全虚构，不基于上下文或世界知识。
微调新知识可能增加幻觉倾向，因为模型对未知示例学习较慢。

扩散模型在图像合成方面取得了显著成果，现在研究界正转向更困难的视频生成任务。本文回顾了从零开始设计扩散视频模型的方法，包括参数化、采样、3D U-Net和DiT架构，以及通过微调或免训练适应将图像模型扩展到视频的技术。重点介绍了VDM、Imagen Video、Sora、Make-A-Video、Tune-A-Video、Video LDM、Stable Video Diffusion、Lumiere、Text2Video-Zero和ControlVideo等代表性工作。

视频生成比图像生成更具挑战性，需要时间一致性和更多世界知识。
主流架构包括3D U-Net和DiT（扩散Transformer），前者如VDM和Imagen Video，后者如Sora。

思考高质量人类数据

2024-02-05 08:00 UTC+8

高质量数据是现代深度学习模型训练的燃料。本文探讨了如何通过人类标注收集高质量数据，包括任务设计、标注员选择与培训、数据聚合等操作步骤。文章还介绍了众包智慧、标注者一致性评估方法（如Cohen's Kappa、MACE）以及两种标注范式（描述性与规范性）。此外，讨论了利用影响函数、训练动态（如数据映射、遗忘事件、AUM）和噪声交叉验证来识别错误标签的技术。

高质量数据依赖细致的人类标注流程，包括任务设计、标注员选择和培训。
众包聚合方法如多数投票和Cohen's Kappa可用于评估标注质量。

大型语言模型的对抗性攻击

2023-10-25 08:00 UTC+8

本文全面调查了针对大型语言模型的对抗性攻击，涵盖威胁模型、攻击类型（包括标记操纵、基于梯度的攻击、越狱提示和红队测试技术），并讨论了黑盒和白盒设置下的挑战与方法。

具有安全对齐的LLM容易受到触发不良输出的对抗性输入的影响。
攻击范围从简单的标记替换到复杂的基于梯度的优化。

LLM驱动的自主智能体

2023-06-23 08:00 UTC+8

本文深入探讨了以大语言模型（LLM）为核心控制器的自主智能体系统。系统包含规划、记忆和工具使用三大组件：规划通过任务分解和自我反思实现复杂任务处理；记忆分为短期（上下文学习）和长期（外部向量存储）；工具使用使智能体能调用外部API。文章还介绍了多个案例（如ChemCrow、生成式智能体）和概念验证（AutoGPT、GPT-Engineer、BabyAGI），并讨论了有限上下文窗口等挑战。

LLM作为自主智能体的核心，结合规划、记忆和工具使用三大组件
规划通过子目标分解和自我反思提升复杂任务处理能力

提示工程

2023-03-15 08:00 UTC+8

本文全面介绍了提示工程的概念、方法及其在大型语言模型中的应用，涵盖从基础提示到高级技术的各个方面，包括零样本、少样本、指令提示、自一致性采样、思维链、自动提示设计和增强型语言模型等。

提示工程通过设计输入提示来引导LLM输出，无需更新模型权重。
零样本和少样本学习是最基本的提示方法，少样本通常表现更好但消耗更多Token。

Transformer家族2.0版

2023-01-27 08:00 UTC+8

本文是Lilian Weng对2020年《Transformer家族》一文的重大更新，篇幅翻倍。文章系统梳理了近年来Transformer架构的众多改进，涵盖注意力机制、位置编码、长上下文支持、自适应建模和高效注意力等核心主题，并纳入Transformer-XL、Rotary位置嵌入、ALiBi、通用Transformer等最新进展。

新版文章结构重组，新增大量近三年论文，内容更丰富。
详细介绍多种位置编码方法，包括正弦、学习、相对和旋转位置嵌入。

大型Transformer模型推理优化

2023-01-11 01:00 UTC+8

全面概述优化大型Transformer模型推理的技术，包括蒸馏、量化、剪枝、稀疏化、混合专家和架构改进。文章讨论了内存占用和低并行性等挑战，并提出了减少内存使用、计算和延迟的方法。

KV缓存对于大批量大小可达3TB。
蒸馏将模型大小减少40%，性能损失极小。

Lilian Weng