AI News HubLIVE
站内改写1 分鐘閱讀

在LangSmith中測試微調的開源模型

本文介紹瞭如何使用LangSmith評估和比較微調後的開源LLM。作者通過微調Llama2-7b和13b模型來生成SQL,並在LangSmith上創建數據集、運行測試、用GPT-4自動評估。結果顯示,13b模型在使用較少數據時仍接近GPT-3.5水平,證明了開源模型的競爭力。

本教程由ChatOpenSource的CTO兼聯合創始人Ryan Brandt撰寫,展示瞭如何利用LangSmith平台評估和比較微調後的開源大語言模型(LLM)。隨着Mistral 7b和Llama2系列等開源模型的崛起,開發者需要一種高效的方法來替換和比較不同模型,就像在遊戲機上更換卡帶一樣。LangSmith提供了友好的用户界面和API,幫助創建評估數據集,從而自動化這一過程。

研究流程

項目的目標是微調Llama2-7b和Llama2-13b模型,使用Hugging Face上的sql-create-context數據集。首先將JSON格式的數據轉換為.jsonl用於聊天微調,然後用GPT-4的Code Interpreter從數據集中選取10,000行,再從中選出1,000行作為驗證集(確保不與訓練數據重疊)。這些驗證行被上傳到LangSmith,用於自動化評估。

微調和評估都在8xA40集羣上進行,採用全參數微調(非LoRA)。通過Replicate平台完成微調和推理:Llama2-7b-chat使用78k行數據,Llama2-13b-chat使用10k行(為控制成本)。之後,在LangSmith上對每個模型運行1,000個提示,用GPT-4作為評判標準,比較模型輸出與已知正確答案。整個過程通過簡單的代碼即可實現。

發現與結論

結果顯示,Llama2-13b-chat-ft-10k(130億參數)的準確率優於Llama2-7b-chat-ft-78k(70億參數),儘管後者使用了更多數據。這引發了一個問題:如果13b模型也使用78k數據,表現會如何?很可能準確率會隨着訓練數據量和質量的提升而增加。此外,7b模型在響應時間(p50和p99)上表現更優,但13b模型的準確率已接近GPT-3.5-turbo-base,表明優化後的開源模型有潛力與閉源模型媲美。

總之,LangSmith支持任何模型(開源或閉源),通過整合數據上傳、測試和自動評估,顯著簡化了模型選型流程。作者也提到,其公司ChatOpenSource提供企業級完全數據私有的聊天替代方案。