2026-06-08站内改写2 分鐘閱讀更新: 2026-06-08

使用ScholarAPI對3000萬篇學術論文進行LLM微調

本文通過案例研究展示瞭如何利用ScholarAPI獲取數百萬篇學術論文，構建高質量數據集並對大型語言模型進行微調，以打造專業領域AI助手。覆蓋了從數據收集、指令數據集生成、多模態增強到監督微調和檢索增強生成（RAG）的全流程。

來源Hacker News AI作者: mwojnars

在人工智能領域，通用大型語言模型（如ChatGPT或Google Gemini）雖然強大，但在處理專業主題時常常產生幻覺。例如，詢問罕見自身免疫性疾病“副腫瘤性天皰瘡”時，模型可能會憑空編造治療方案。要構建針對罕見免疫疾病的專業AI助手，需要超越開放網絡，使用學術出版物等可信知識來源。ScholarAPI通過簡單的REST接口提供對數百萬篇論文的即時程序化訪問，使這一過程變得簡單。

該案例研究以醫學為例，但相同的工作流程可應用於材料科學、法律科技、化學工程等任何需要深度科學精度的領域。

首先，收集領域特定數據。使用ScholarAPI的/list端點，通過特定術語（如“autoantibodies”、“plakin proteins”）批量獲取論文摘要。然後使用/text或/texts端點下載每篇文章的純文本，構建反映領域真實複雜性的高質量原始學術語料庫。ScholarAPI支持批量下載最多100篇論文的文本，並可按索引順序分頁獲取。

其次，生成訓練數據集。原始文本不足以進行指令微調，需要使用輔助LLM自動生成數千個訓練樣本，涵蓋摘要、問答、信息提取和臨牀推理等多種任務類別。例如，可以生成基於論文摘要的問答對，要求模型提取生物標誌物，或模擬診斷推理過程。這需要將原始文本分塊，輸入輔助LLM生成（指令，輸出）對，並進行安全檢查。

第三，多模態增強。醫學診斷是視覺性的，僅文本不夠。ScholarAPI的/pdf端點可下載完整PDF文檔，從中提取圖像及其標題，用於訓練能夠“看見”醫學影像的多模態模型。例如，可以提取組織學切片、X光片和流式細胞圖的圖像及其描述。

最後，進行監督微調（SFT）。將生成的指令-輸出對送入預訓練基礎模型（如Llama 3或Mistral 7B）進行微調，使用LoRA等高效微調技術。經過數千步訓練，模型適應免疫學的專業詞彙和推理模式，從猜測變為真正掌握領域知識。此外，可結合檢索增強生成（RAG）在推理時實時查詢ScholarAPI獲取最新論文，確保模型回答既準確又最新。

這種混合方法——通過SFT獲得深度領域知識，通過RAG獲得最新事實——打造出既明智又與時俱進的AI專業助手。例如，當臨牀醫生詢問關於CAR-T細胞療法安全性的最新發現時，系統會通過ScholarAPI檢索2026年的研究，並將相關文本注入模型上下文，從而生成基於最新證據的回答。