大語言模型研究中的開放挑戰
本文總結了當前大語言模型研究的十大方向,涵蓋幻覺、上下文學習、多模態、速度與成本、新架構、GPU替代品、智能體、人類偏好學習、聊天界面效率以及非英語語言模型。作者基於與業界和學術界的交流,分析了每個方向的現狀和挑戰。
近年來,大語言模型(LLM)領域匯聚了眾多頂尖人才,共同致力於提升模型性能。本文基於與業界和學術界的廣泛交流,總結了十個主要研究方向,並分析了每個方向的現狀與前景。
1. 減少和衡量幻覺
幻覺是LLM生成虛假內容的常見問題。對於創意場景,幻覺可能是特色,但在大多數實際應用中,它是嚴重缺陷。據近期小組討論,幻覺是企業採用LLM的首要障礙。研究者正在開發緩解技術和衡量指標,如添加上下文、思維鏈、自我一致性等方法。相關論文包括《自然語言生成中的幻覺綜述》(Ji等,2022)和《語言模型幻覺如何滾雪球》(Zhang等,2023)等。
2. 優化上下文長度與構建
多數問題需要上下文。研究表明,約16.5%的信息尋求問題的答案依賴於上下文。RAG(檢索增強生成)成為主流模式,分索引和查詢兩階段。然而,長上下文並非總是更好——模型對中間位置的信息理解較弱(《迷失在中間》,Liu等,2023)。因此,上下文構建效率與長度同樣重要。
3. 融合其他數據模態
多模態在醫療、電商等領域需求巨大,且能顯著提升模型性能。例如,醫療預測需要結合文本和影像數據。多模態還可幫助視障人士瀏覽網絡。代表性工作包括OpenAI的CLIP、DeepMind的Flamingo、Salesforce的BLIP-2等。作者認為多模態潛力被低估,並計劃撰寫相關文章。
4. 使LLM更快更便宜
自GPT-3.5以來,硬件需求大幅降低。短短半年內,Guanaco 7B在接近GPT-3.5性能的同時,內存需求僅為後者的2%。模型壓縮技術(量化、知識蒸餾、低秩分解、剪枝)正廣泛採用。例如,Alpaca通過知識蒸餾訓練,QLoRA結合了低秩分解和量化。
5. 設計新模型架構
Transformer自2017年以來佔據主導,但新架構的探索從未停止。Chris Ré實驗室的S4和Monarch Mixer致力於降低注意力機制的二次複雜度。新架構需在現有硬件上達到競爭規模。
6. 開發GPU替代品
GPU自AlexNet以來一直是深度學習的主力硬件。谷歌的TPU、Graphcore的IPU、Cerebras等嘗試各有進展。光量子芯片和量子計算正成為新興方向,如Lightmatter、Ayar Labs等初創公司已獲數億美元融資。
7. 讓智能體可用
智能體(Agent)是能執行行動的LLM,如瀏覽網頁、發送郵件。Auto-GPT成為GitHub史上熱門項目第25名。斯坦福實驗展示了智能體社會湧現的社交行為。但可靠性仍是質疑焦點。
8. 改進人類偏好學習
RLHF存在諸多開放問題:如何數學表示偏好?偏好標準是什麼?誰的代表性?例如,InstructGPT標註員缺乏65歲以上羣體,OpenAssistant數據集中90.5%為男性。
9. 提升聊天界面效率
聊天界面雖具有普適性和魯棒性,但存在單次多消息、多模態輸入、編輯刪除等問題。亞洲超級應用已長期使用聊天界面,但在LLM場景下仍需改進。
10. 為非英語語言構建LLM
當前英語優先的LLM對其他語言表現不佳。低資源語言需要特殊技術。相關倡議包括Aya、Symato(越南語)、Cabrita(葡萄牙語)等。儘管有人認為這是物流問題,但低資源語言的挑戰不容忽視。
結論
作者對十個方向進行了難度評估:非英語模型相對直接,幻覺問題根深蒂固,速度和成本永無止境,新架構和硬件是必然趨勢但極具挑戰。部分問題需結合政策、用户體驗等非技術智慧。希望更多跨領域人才加入。