正しいコードだが理由は間違っている?理論的構成概念の測定手段としてのLLMの検証
大規模言語モデル(LLM)がテキストのコーディングで人間のアノテーターと一致しても、信頼性は構成概念的妥当性を保証しない。本論文は「粒度キャリブレーション」を提案する。これは構成概念を節レベルの要素に分解し、抽出可能な証拠で各要素をテストし、明示的な理論由来のルールで結果を組み合わせる。出力だけでなくプロセスの証拠を提供し、検証をアノテーターとのスコア比較から、モデルが理論指定の構成概念で動作することの証明へと移行させる。
大規模言語モデル(LLM)はテキストのコーディングにおいて人間のアノテーターと高い一致を示すことが多く、信頼できるコーダーと見なされている。しかし、arXivに投稿された新しい論文(2606.28574)は、この信頼性が構成概念的妥当性(construct validity)を保証しないと指摘する。LLMは理論とは無関係な相関変数を通じて正しいコードに到達する可能性があり、現在の方法ではこれを真の測定と区別できない。
著者のManuel Pitaは、このギャップを埋める「粒度キャリブレーション」(grain calibration)法を提案する。この手法はまず理論的構成概念を節レベルの構成要素に分解する。例えば、「経済的不平等」という構成概念は、「所得格差」「富の集中」「機会の不均等」などの要素に分解される。次に、テキストから抽出可能な証拠を用いて各要素を個別にテストする(例:キーワード一致や意味的含意の判定)。その後、明示的かつ理論に基づくルールに従って結果を統合し、最終的なコードを生成する。このルールは例えば「少なくとも2つの要素が存在すれば、経済的不平等とコードする」というものになる。
従来のブラックボックス的なLLMコーディングと異なり、粒度キャリブレーションではルールが明示的に記述されるため、その構造自体が出力ではなくプロセスに関する証拠となる。これにより、どの構成要素がコードを決定したか、またコードが誤っている場合に要素が見落とされたのか、隣接する構成概念と混同されたのかを特定できる。例えば、モデルが「経済的不平等」を「社会的不平等」と誤ってコードした場合、粒度キャリブレーションは「所得格差」要素が「社会階層」要素と誤認されたことを明らかにできる。
この手法の革新性は、検証の焦点をモデルの出力と人間のアノテーターのスコアを比較することから、モデルが理論によって指定された構成概念に基づいて動作していることを実証することへと移行させた点にある。論文は、この転換がLLMを社会科学などの分野で有効な測定手段として確立するために重要であると論じている。
本論文は2026年6月26日に提出され、人工知能、計算と言語、コンピュータと社会の分野に属する。arXivで公開されており、PDFやHTML形式で入手可能である。著者のManuel Pita博士は所属機関を明らかにしていない。