大语言模型研究中的开放挑战
本文总结了当前大语言模型研究的十大方向,涵盖幻觉、上下文学习、多模态、速度与成本、新架构、GPU替代品、智能体、人类偏好学习、聊天界面效率以及非英语语言模型。作者基于与业界和学术界的交流,分析了每个方向的现状和挑战。
近年来,大语言模型(LLM)领域汇聚了众多顶尖人才,共同致力于提升模型性能。本文基于与业界和学术界的广泛交流,总结了十个主要研究方向,并分析了每个方向的现状与前景。
1. 减少和衡量幻觉
幻觉是LLM生成虚假内容的常见问题。对于创意场景,幻觉可能是特色,但在大多数实际应用中,它是严重缺陷。据近期小组讨论,幻觉是企业采用LLM的首要障碍。研究者正在开发缓解技术和衡量指标,如添加上下文、思维链、自我一致性等方法。相关论文包括《自然语言生成中的幻觉综述》(Ji等,2022)和《语言模型幻觉如何滚雪球》(Zhang等,2023)等。
2. 优化上下文长度与构建
多数问题需要上下文。研究表明,约16.5%的信息寻求问题的答案依赖于上下文。RAG(检索增强生成)成为主流模式,分索引和查询两阶段。然而,长上下文并非总是更好——模型对中间位置的信息理解较弱(《迷失在中间》,Liu等,2023)。因此,上下文构建效率与长度同样重要。
3. 融合其他数据模态
多模态在医疗、电商等领域需求巨大,且能显著提升模型性能。例如,医疗预测需要结合文本和影像数据。多模态还可帮助视障人士浏览网络。代表性工作包括OpenAI的CLIP、DeepMind的Flamingo、Salesforce的BLIP-2等。作者认为多模态潜力被低估,并计划撰写相关文章。
4. 使LLM更快更便宜
自GPT-3.5以来,硬件需求大幅降低。短短半年内,Guanaco 7B在接近GPT-3.5性能的同时,内存需求仅为后者的2%。模型压缩技术(量化、知识蒸馏、低秩分解、剪枝)正广泛采用。例如,Alpaca通过知识蒸馏训练,QLoRA结合了低秩分解和量化。
5. 设计新模型架构
Transformer自2017年以来占据主导,但新架构的探索从未停止。Chris Ré实验室的S4和Monarch Mixer致力于降低注意力机制的二次复杂度。新架构需在现有硬件上达到竞争规模。
6. 开发GPU替代品
GPU自AlexNet以来一直是深度学习的主力硬件。谷歌的TPU、Graphcore的IPU、Cerebras等尝试各有进展。光量子芯片和量子计算正成为新兴方向,如Lightmatter、Ayar Labs等初创公司已获数亿美元融资。
7. 让智能体可用
智能体(Agent)是能执行行动的LLM,如浏览网页、发送邮件。Auto-GPT成为GitHub史上热门项目第25名。斯坦福实验展示了智能体社会涌现的社交行为。但可靠性仍是质疑焦点。
8. 改进人类偏好学习
RLHF存在诸多开放问题:如何数学表示偏好?偏好标准是什么?谁的代表性?例如,InstructGPT标注员缺乏65岁以上群体,OpenAssistant数据集中90.5%为男性。
9. 提升聊天界面效率
聊天界面虽具有普适性和鲁棒性,但存在单次多消息、多模态输入、编辑删除等问题。亚洲超级应用已长期使用聊天界面,但在LLM场景下仍需改进。
10. 为非英语语言构建LLM
当前英语优先的LLM对其他语言表现不佳。低资源语言需要特殊技术。相关倡议包括Aya、Symato(越南语)、Cabrita(葡萄牙语)等。尽管有人认为这是物流问题,但低资源语言的挑战不容忽视。
结论
作者对十个方向进行了难度评估:非英语模型相对直接,幻觉问题根深蒂固,速度和成本永无止境,新架构和硬件是必然趋势但极具挑战。部分问题需结合政策、用户体验等非技术智慧。希望更多跨领域人才加入。