2023-08-16 08:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

大語言模型研究中的開放挑戰

本文總結了當前大語言模型研究的十大方向，涵蓋幻覺、上下文學習、多模態、速度與成本、新架構、GPU替代品、智能體、人類偏好學習、聊天界面效率以及非英語語言模型。作者基於與業界和學術界的交流，分析了每個方向的現狀和挑戰。

近年來，大語言模型（LLM）領域匯聚了眾多頂尖人才，共同致力於提升模型性能。本文基於與業界和學術界的廣泛交流，總結了十個主要研究方向，並分析了每個方向的現狀與前景。

1. 減少和衡量幻覺

幻覺是LLM生成虛假內容的常見問題。對於創意場景，幻覺可能是特色，但在大多數實際應用中，它是嚴重缺陷。據近期小組討論，幻覺是企業採用LLM的首要障礙。研究者正在開發緩解技術和衡量指標，如添加上下文、思維鏈、自我一致性等方法。相關論文包括《自然語言生成中的幻覺綜述》（Ji等，2022）和《語言模型幻覺如何滾雪球》（Zhang等，2023）等。

2. 優化上下文長度與構建

多數問題需要上下文。研究表明，約16.5%的信息尋求問題的答案依賴於上下文。RAG（檢索增強生成）成為主流模式，分索引和查詢兩階段。然而，長上下文並非總是更好——模型對中間位置的信息理解較弱（《迷失在中間》，Liu等，2023）。因此，上下文構建效率與長度同樣重要。

3. 融合其他數據模態

多模態在醫療、電商等領域需求巨大，且能顯著提升模型性能。例如，醫療預測需要結合文本和影像數據。多模態還可幫助視障人士瀏覽網絡。代表性工作包括OpenAI的CLIP、DeepMind的Flamingo、Salesforce的BLIP-2等。作者認為多模態潛力被低估，並計劃撰寫相關文章。

4. 使LLM更快更便宜

自GPT-3.5以來，硬件需求大幅降低。短短半年內，Guanaco 7B在接近GPT-3.5性能的同時，內存需求僅為後者的2%。模型壓縮技術（量化、知識蒸餾、低秩分解、剪枝）正廣泛採用。例如，Alpaca通過知識蒸餾訓練，QLoRA結合了低秩分解和量化。

5. 設計新模型架構

Transformer自2017年以來佔據主導，但新架構的探索從未停止。Chris Ré實驗室的S4和Monarch Mixer致力於降低注意力機制的二次複雜度。新架構需在現有硬件上達到競爭規模。

6. 開發GPU替代品

GPU自AlexNet以來一直是深度學習的主力硬件。谷歌的TPU、Graphcore的IPU、Cerebras等嘗試各有進展。光量子芯片和量子計算正成為新興方向，如Lightmatter、Ayar Labs等初創公司已獲數億美元融資。

7. 讓智能體可用

智能體（Agent）是能執行行動的LLM，如瀏覽網頁、發送郵件。Auto-GPT成為GitHub史上熱門項目第25名。斯坦福實驗展示了智能體社會湧現的社交行為。但可靠性仍是質疑焦點。

8. 改進人類偏好學習

RLHF存在諸多開放問題：如何數學表示偏好？偏好標準是什麼？誰的代表性？例如，InstructGPT標註員缺乏65歲以上羣體，OpenAssistant數據集中90.5%為男性。

9. 提升聊天界面效率

聊天界面雖具有普適性和魯棒性，但存在單次多消息、多模態輸入、編輯刪除等問題。亞洲超級應用已長期使用聊天界面，但在LLM場景下仍需改進。

10. 為非英語語言構建LLM

當前英語優先的LLM對其他語言表現不佳。低資源語言需要特殊技術。相關倡議包括Aya、Symato（越南語）、Cabrita（葡萄牙語）等。儘管有人認為這是物流問題，但低資源語言的挑戰不容忽視。

結論

作者對十個方向進行了難度評估：非英語模型相對直接，幻覺問題根深蒂固，速度和成本永無止境，新架構和硬件是必然趨勢但極具挑戰。部分問題需結合政策、用户體驗等非技術智慧。希望更多跨領域人才加入。