2023-08-16 08:00 UTC+8站内改写2 分钟阅读更新: 2026-06-27 08:25 UTC+8

大语言模型研究中的开放挑战

本文总结了当前大语言模型研究的十大方向，涵盖幻觉、上下文学习、多模态、速度与成本、新架构、GPU替代品、智能体、人类偏好学习、聊天界面效率以及非英语语言模型。作者基于与业界和学术界的交流，分析了每个方向的现状和挑战。

近年来，大语言模型（LLM）领域汇聚了众多顶尖人才，共同致力于提升模型性能。本文基于与业界和学术界的广泛交流，总结了十个主要研究方向，并分析了每个方向的现状与前景。

1. 减少和衡量幻觉

幻觉是LLM生成虚假内容的常见问题。对于创意场景，幻觉可能是特色，但在大多数实际应用中，它是严重缺陷。据近期小组讨论，幻觉是企业采用LLM的首要障碍。研究者正在开发缓解技术和衡量指标，如添加上下文、思维链、自我一致性等方法。相关论文包括《自然语言生成中的幻觉综述》（Ji等，2022）和《语言模型幻觉如何滚雪球》（Zhang等，2023）等。

2. 优化上下文长度与构建

多数问题需要上下文。研究表明，约16.5%的信息寻求问题的答案依赖于上下文。RAG（检索增强生成）成为主流模式，分索引和查询两阶段。然而，长上下文并非总是更好——模型对中间位置的信息理解较弱（《迷失在中间》，Liu等，2023）。因此，上下文构建效率与长度同样重要。

3. 融合其他数据模态

多模态在医疗、电商等领域需求巨大，且能显著提升模型性能。例如，医疗预测需要结合文本和影像数据。多模态还可帮助视障人士浏览网络。代表性工作包括OpenAI的CLIP、DeepMind的Flamingo、Salesforce的BLIP-2等。作者认为多模态潜力被低估，并计划撰写相关文章。

4. 使LLM更快更便宜

自GPT-3.5以来，硬件需求大幅降低。短短半年内，Guanaco 7B在接近GPT-3.5性能的同时，内存需求仅为后者的2%。模型压缩技术（量化、知识蒸馏、低秩分解、剪枝）正广泛采用。例如，Alpaca通过知识蒸馏训练，QLoRA结合了低秩分解和量化。

5. 设计新模型架构

Transformer自2017年以来占据主导，但新架构的探索从未停止。Chris Ré实验室的S4和Monarch Mixer致力于降低注意力机制的二次复杂度。新架构需在现有硬件上达到竞争规模。

6. 开发GPU替代品

GPU自AlexNet以来一直是深度学习的主力硬件。谷歌的TPU、Graphcore的IPU、Cerebras等尝试各有进展。光量子芯片和量子计算正成为新兴方向，如Lightmatter、Ayar Labs等初创公司已获数亿美元融资。

7. 让智能体可用

智能体（Agent）是能执行行动的LLM，如浏览网页、发送邮件。Auto-GPT成为GitHub史上热门项目第25名。斯坦福实验展示了智能体社会涌现的社交行为。但可靠性仍是质疑焦点。

8. 改进人类偏好学习

RLHF存在诸多开放问题：如何数学表示偏好？偏好标准是什么？谁的代表性？例如，InstructGPT标注员缺乏65岁以上群体，OpenAssistant数据集中90.5%为男性。

9. 提升聊天界面效率

聊天界面虽具有普适性和鲁棒性，但存在单次多消息、多模态输入、编辑删除等问题。亚洲超级应用已长期使用聊天界面，但在LLM场景下仍需改进。

10. 为非英语语言构建LLM

当前英语优先的LLM对其他语言表现不佳。低资源语言需要特殊技术。相关倡议包括Aya、Symato（越南语）、Cabrita（葡萄牙语）等。尽管有人认为这是物流问题，但低资源语言的挑战不容忽视。

结论

作者对十个方向进行了难度评估：非英语模型相对直接，幻觉问题根深蒂固，速度和成本永无止境，新架构和硬件是必然趋势但极具挑战。部分问题需结合政策、用户体验等非技术智慧。希望更多跨领域人才加入。