AI News HubLIVE
站内改写2 分で読了

科学的概念の計算的概念史:初期のデジタル手法から大規模言語モデルへ

本稿は、科学史・科学哲学・科学社会学(HPSS)における概念分析の計算的アプローチの長い歴史の中に大規模言語モデル(LLM)を位置づける。LLMが既存の手法に何を加えるか、どのように長年の問題を継承するかを検討し、最近のケーススタディをレビューする。第一部では、HPSSにおける初期デジタル手法、分散意味論アプローチ、語彙意味変化検出の3つの研究系統を統合し、LLM以前の計算的概念史を再構築する。第二部では、LLMの時代に焦点を当て、LLMを用いた語彙意味変化検出と関連ケーススタディをレビューし、コーパス構築、モデル選択、操作化のトレードオフなどの方法論的問題を再検討する。

ソースarXiv Computational Linguistics著者: Michael Zichert, Arno Simons

arXivに投稿された論文「科学的概念の計算的概念史:初期のデジタル手法から大規模言語モデルへ」は、科学史・科学哲学・科学社会学(HPSS)における概念分析の計算的アプローチの長い歴史の中で大規模言語モデル(LLM)を位置づける包括的なレビューを行っています。著者のMichael Zichertと共同研究者は、LLMが既存の手法に何を追加するか、どのように長年の問題を継承するかを検討し、最近のケーススタディをレビューしています。この論文は19ページの章として、Arno Simons、Adrian Wüthrich、Michael Zichert、Gerd Graßhoff編集の書籍『Understanding Science with Large Language Models?』( transcript出版社、383–412ページ、ISBN 978-3-8376-7994-6)に収録されています。

論文の第一部では、LLM以前の計算的概念史を再構築します。ここでは、HPSSにおける初期デジタル手法(例えば、頻度分析やトピックモデリング)、デジタル史などの分散意味論アプローチ(Word2Vecなどの単語埋め込み)、そして語彙意味変化検出の3つの研究系統を統合しています。著者らは、コーパス構築(歴史的テキストの選択とバイアス)、操作化とモデリングの選択(概念変化の定量化方法、ベクトル空間モデルの選択)、評価と解釈(検出された変化の歴史的妥当性の検証)に焦点を当て、主な課題と機会を概説しています。

第二部では、LLMの時代に移行します。まずLLMの基本概念と能力を簡潔に紹介した後、LLMを用いた語彙意味変化検出の研究をレビューします。これには、BERTなどの文脈埋め込みやGPTなどの生成モデルを利用して、より微妙な意味変化を捉える試みが含まれます。また、HPSSにおける関連ケーススタディとして、「科学」や「実験」といった主要概念の数世紀にわたる意味変化の追跡が紹介されています。その後、コーパス構築、モデル選択と訓練データ、操作化のトレードオフ、評価と解釈といった方法論的問題が、LLMベースのワークフローでどのように現れるかを示しながら、以前の議論を再検討します。例えば、LLMの訓練データに現代のバイアスが含まれる可能性や、モデルの特定の層やファインチューニング手法の選択が結果に大きく影響することが指摘されています。論文は、LLMが強力なツールである一方で、研究者はこれらの長年の課題に慎重に対処する必要があると結論づけています。最後に、この研究がHPSS分野の研究者にLLM活用の実践的ガイドラインを提供し、将来的には学際的協力による計算手法のさらなる発展を促すと述べています。論文の全文はarXiv(arXiv:2606.04118)で入手可能です。