科學概念的計算概念史:從早期數字方法到大語言模型
本文回顧了在科學史、科學哲學和科學社會學中,從早期數字方法到大型語言模型(LLM)的計算概念分析方法。文章分為兩部分:第一部分探討了LLM之前的計算概念史,包括早期數字方法、分佈語義方法和詞彙語義變化檢測;第二部分則聚焦LLM時代,介紹LLM在詞彙語義變化檢測中的應用及相關案例研究,並重新審視了語料庫構建、模型選擇、操作化權衡等方法論問題。
近日,arXiv上發佈了一篇題為《科學概念的計算概念史:從早期數字方法到大語言模型》的論文,該論文對大型語言模型(LLM)在科學史、科學哲學和科學社會學(HPSS)領域中的應用進行了全面審視。文章將LLM置於計算概念分析的更長遠歷史中,探討了它們為現有方法帶來的新意、繼承的長期問題,並回顧了相關案例研究。論文的作者是Michael Zichert和另一位合作者,全文共19頁,作為一章收錄於《Understanding Science with Large Language Models?》一書(第383-412頁),由轉錄出版社出版,編輯包括Arno Simons、Adrian Wüthrich、Michael Zichert和Gerd Graßhoff,ISBN為978-3-8376-7994-6。
論文的第一部分重構了LLM出現之前的計算概念史,融合了三個研究方向:HPSS中的早期數字方法、數字史及相關研究中的分佈語義方法,以及詞彙語義變化檢測。早期數字方法包括詞頻統計、主題建模等技術,用於分析科學概念的歷史演變。分佈語義方法則利用詞嵌入(如Word2Vec)捕捉語義關係,而詞彙語義變化檢測專注於識別詞語含義隨時間的變化。作者詳細介紹了這些方法面臨的主要挑戰和機遇,重點包括語料庫構建(如選擇代表性文獻處理歷史文本的稀疏性和偏差)、操作化和建模選擇(如如何量化概念變化、選擇適當的向量空間模型),以及評估與解釋(如何驗證檢測出的變化是否真實反映歷史演變)。
第二部分轉向LLM時代,首先簡要介紹了LLM的基本原理和能力,隨後回顧了基於LLM的詞彙語義變化檢測研究,包括使用上下文嵌入(如BERT)或生成式模型(如GPT)來捕捉更細膩的語義變化。作者還介紹了在HPSS中的相關案例研究,例如追蹤“科學”、“實驗”等關鍵概念在幾個世紀中的含義轉變。在此基礎上,論文重新審視了之前提出的方法論問題,展示了語料庫構建、模型選擇和訓練數據、操作化權衡、評估與解釋等問題如何在基於LLM的工作流中具體體現。例如,LLM的訓練數據可能引入現代偏見,而模型的選擇(如特定層或微調方法)會顯著影響結果。論文強調,儘管LLM提供了強大的工具,但研究者仍需謹慎處理這些長期存在的挑戰。最後,作者指出,該工作為HPSS領域研究者使用LLM提供了實用的指南,並呼籲未來在跨學科合作下進一步發展計算方法。論文的完整PDF可通過arXiv獲取(arXiv:2606.04118)。