2026-06-12站内改写2 分で読了更新: 2026-06-12

ToolSense：LLMにおけるパラメトリックツール知識を監査する診断フレームワーク

大規模言語モデル（LLM）のツール検索能力を評価する既存のベンチマークは過大評価される傾向がある。研究者らは、より現実的な評価を行うためのオープンソース診断フレームワーク「ToolSense」を提案する。ToolSenseは3種類のベンチマークを自動生成し、ToolBench（約4万7000ツール）での実験では、知識と検索の乖離（知識-検索解離）が明らかになった。標準ベンチマークで高い性能を示すモデルでも、現実的なクエリでは性能が50～64%低下し、埋め込みベースのベースラインを下回る場合がある。

ソースarXiv AI著者: Ashutosh Hathidara, Sai Shruthi Sistla, Sebastian Schreiber, Sahil Bansal

大規模言語モデル（LLM）をエージェントとして大規模なツールカタログ上で展開する際、ツール検索が重要なボトルネックとなる。従来の埋め込みベースの検索手法はコンパクトなエンコーダに依存するため、専門的なツールのセマンティクスを十分に捉えられない可能性がある。パラメトリックツール検索は、各ツールをLLMの語彙に追加される仮想トークンとしてエンコードし、2段階（記憶化、続いて検索SFT）のファインチューニングを経て、LLM自体を検索器として利用する。これにより、標準的なToolBench検索ベンチマークでは強力な性能を達成している。しかし、これらのベンチマークは冗長で完全に指定されたクエリを使用し、評価では有効なトークンパスに出力を制限する制約付きデコードを適用するため、モデルが実際にツールを理解しているかどうかは明らかにならない。

この問題に対処するため、SAPの研究者らはToolSenseを提案した。ToolSenseは、任意のツールカタログを入力として受け取り、3つのベンチマーク（3段階のあいまいさレベルを持つ現実的検索ベンチマークRRB、多肢選択プローブベンチマーク、QAプローブベンチマーク）を自動生成する、LLMベースのオープンソース診断フレームワークである。ToolSenseをToolBench（約4万7000ツール）に適用し、5つのパラメトリックモデル学習構成を評価した結果、知識-検索解離（knowledge-retrieval dissociation）が明らかになった。RRBクエリでは、いくつかの構成が完全指定のToolBenchベンチマークと比較して約50～64ポイント性能が低下し、埋め込みモデルのベースラインを下回った。さらに、高い検索性能を示す一部のモデルでも、事実に関するプローブではランダムに近いスコアとなり、知識-検索解離の存在が示唆された。

この研究は、既存のベンチマークの限界を指摘し、より厳格な評価フレームワークを提供する。ToolSenseのオープンソース公開により、コミュニティはLLMのツール理解能力をより正確に測定できるようになり、より信頼性が高く実用的なエージェントシステムの開発が促進されると期待される。ToolSenseフレームワークとToolBench診断ベンチマークは、https://github.com/sap/toolsense で公開されている。