AI News HubLIVE
站内改写2 分钟阅读

使用ScholarAPI对3000万篇学术论文进行LLM微调

本文通过案例研究展示了如何利用ScholarAPI获取数百万篇学术论文,构建高质量数据集并对大型语言模型进行微调,以打造专业领域AI助手。覆盖了从数据收集、指令数据集生成、多模态增强到监督微调和检索增强生成(RAG)的全流程。

来源Hacker News AI作者: mwojnars

在人工智能领域,通用大型语言模型(如ChatGPT或Google Gemini)虽然强大,但在处理专业主题时常常产生幻觉。例如,询问罕见自身免疫性疾病“副肿瘤性天疱疮”时,模型可能会凭空编造治疗方案。要构建针对罕见免疫疾病的专业AI助手,需要超越开放网络,使用学术出版物等可信知识来源。ScholarAPI通过简单的REST接口提供对数百万篇论文的即时程序化访问,使这一过程变得简单。

该案例研究以医学为例,但相同的工作流程可应用于材料科学、法律科技、化学工程等任何需要深度科学精度的领域。

首先,收集领域特定数据。使用ScholarAPI的/list端点,通过特定术语(如“autoantibodies”、“plakin proteins”)批量获取论文摘要。然后使用/text或/texts端点下载每篇文章的纯文本,构建反映领域真实复杂性的高质量原始学术语料库。ScholarAPI支持批量下载最多100篇论文的文本,并可按索引顺序分页获取。

其次,生成训练数据集。原始文本不足以进行指令微调,需要使用辅助LLM自动生成数千个训练样本,涵盖摘要、问答、信息提取和临床推理等多种任务类别。例如,可以生成基于论文摘要的问答对,要求模型提取生物标志物,或模拟诊断推理过程。这需要将原始文本分块,输入辅助LLM生成(指令,输出)对,并进行安全检查。

第三,多模态增强。医学诊断是视觉性的,仅文本不够。ScholarAPI的/pdf端点可下载完整PDF文档,从中提取图像及其标题,用于训练能够“看见”医学影像的多模态模型。例如,可以提取组织学切片、X光片和流式细胞图的图像及其描述。

最后,进行监督微调(SFT)。将生成的指令-输出对送入预训练基础模型(如Llama 3或Mistral 7B)进行微调,使用LoRA等高效微调技术。经过数千步训练,模型适应免疫学的专业词汇和推理模式,从猜测变为真正掌握领域知识。此外,可结合检索增强生成(RAG)在推理时实时查询ScholarAPI获取最新论文,确保模型回答既准确又最新。

这种混合方法——通过SFT获得深度领域知识,通过RAG获得最新事实——打造出既明智又与时俱进的AI专业助手。例如,当临床医生询问关于CAR-T细胞疗法安全性的最新发现时,系统会通过ScholarAPI检索2026年的研究,并将相关文本注入模型上下文,从而生成基于最新证据的回答。