使用ScholarAPI對3000萬篇學術論文進行LLM微調
本文通過案例研究展示瞭如何利用ScholarAPI獲取數百萬篇學術論文,構建高質量數據集並對大型語言模型進行微調,以打造專業領域AI助手。覆蓋了從數據收集、指令數據集生成、多模態增強到監督微調和檢索增強生成(RAG)的全流程。
在人工智能領域,通用大型語言模型(如ChatGPT或Google Gemini)雖然強大,但在處理專業主題時常常產生幻覺。例如,詢問罕見自身免疫性疾病“副腫瘤性天皰瘡”時,模型可能會憑空編造治療方案。要構建針對罕見免疫疾病的專業AI助手,需要超越開放網絡,使用學術出版物等可信知識來源。ScholarAPI通過簡單的REST接口提供對數百萬篇論文的即時程序化訪問,使這一過程變得簡單。
該案例研究以醫學為例,但相同的工作流程可應用於材料科學、法律科技、化學工程等任何需要深度科學精度的領域。
首先,收集領域特定數據。使用ScholarAPI的/list端點,通過特定術語(如“autoantibodies”、“plakin proteins”)批量獲取論文摘要。然後使用/text或/texts端點下載每篇文章的純文本,構建反映領域真實複雜性的高質量原始學術語料庫。ScholarAPI支持批量下載最多100篇論文的文本,並可按索引順序分頁獲取。
其次,生成訓練數據集。原始文本不足以進行指令微調,需要使用輔助LLM自動生成數千個訓練樣本,涵蓋摘要、問答、信息提取和臨牀推理等多種任務類別。例如,可以生成基於論文摘要的問答對,要求模型提取生物標誌物,或模擬診斷推理過程。這需要將原始文本分塊,輸入輔助LLM生成(指令,輸出)對,並進行安全檢查。
第三,多模態增強。醫學診斷是視覺性的,僅文本不夠。ScholarAPI的/pdf端點可下載完整PDF文檔,從中提取圖像及其標題,用於訓練能夠“看見”醫學影像的多模態模型。例如,可以提取組織學切片、X光片和流式細胞圖的圖像及其描述。
最後,進行監督微調(SFT)。將生成的指令-輸出對送入預訓練基礎模型(如Llama 3或Mistral 7B)進行微調,使用LoRA等高效微調技術。經過數千步訓練,模型適應免疫學的專業詞彙和推理模式,從猜測變為真正掌握領域知識。此外,可結合檢索增強生成(RAG)在推理時實時查詢ScholarAPI獲取最新論文,確保模型回答既準確又最新。
這種混合方法——通過SFT獲得深度領域知識,通過RAG獲得最新事實——打造出既明智又與時俱進的AI專業助手。例如,當臨牀醫生詢問關於CAR-T細胞療法安全性的最新發現時,系統會通過ScholarAPI檢索2026年的研究,並將相關文本注入模型上下文,從而生成基於最新證據的回答。