Halgorithem:ツリー構造でAIの幻覚を検出、パイプラインにAI不要
Halgorithem はAI自体を使わずにAIの幻覚を検出するアルゴリズムで、入力をツリーにパースし、ファイルチャンクのツリーと比較して矛盾をフラグします。LangGraphやCrewAIなどのPython AIワークフローに容易に統合でき、ベンチマークで高い精度を示しています。
記事インテリジェンス
要点
- Halgorithem は独自のAIを使わず、ツリー構造比較でAIの幻覚を検出。
- LangGraph、CrewAIなどの主要なPython AIパイプラインに統合可能。
- 複数のトピックに関するベンチマークで高いサポート率を示し、検証不可能なフラグは1件のみ。
重要な理由
このニュースが重要なのは、Halgorithem は独自のAIを使わず、ツリー構造比較でAIの幻覚を検出ためです。
技術的影響
モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。
AIの出力に含まれる「幻覚」(ハルシネーション)を、AI自体を使わずに検出するオープンソースアルゴリズム「Halgorithem」が登場した。Tangible Researchが開発した本手法は、入力ファイルをツリー構造に解析し、事前に処理されたファイルチャンクのツリーと比較することで、論理的な矛盾や検証不能な情報を特定する。
従来の手法が大規模言語モデルや分類器に依存するのに対し、Halgorithemは純粋に構造比較に基づくため、計算コストが低く、バイアスのリスクも少ない。具体的には、ユーザーが提供したテキストやファイルをツリー状に変換し、各ノードをソースファイルから生成したツリーのノードと照合する。一致しないノードや矛盾がある場合、それが幻覚としてフラグされる。
統合の容易さも特徴で、LangGraph、CrewAI、PydanticAI、Microsoft AutoGenといった主要なPythonフレームワークに組み込むことができる。開発者は既存のパイプラインを大幅に変更せずに、幻覚検出機能を追加可能だ。
開発チームは初期ベンチマーク結果も公表している。テストは4つのトピック(Microsoft/サティア・ナデラ、ジェームズ・ウェッブ宇宙望遠鏡、Apple/ティム・クック、Elon Musk/Twitter)に対して実施。それぞれ3~5つのWikipediaページをソースとして使用した。結果、ほとんどの記述で高いサポート率を示し、弱点はごく一部、矛盾はゼロだった。唯一、ウェッブ望遠鏡の「1000億ドルのコスト」という記述がソーステキストに含まれていないため「検証不能」と判定されたが、これは幻覚ではなくデータ不足によるものとされた。
インストール手順は標準的で、仮想環境の作成、依存関係のインストール、spaCyモデルのダウンロード、ベンチマークスクリプトの実行が必要。プロジェクトはPythonで記述され、ターミナル用インターフェースも備える。現在のスター数は2、フォークは0で、Alpha版がリリースされている。
Halgorithemはまだ初期段階だが、AIを使わずにAIの誤りを見つけるという逆転の発想は、AI安全性の分野に新しい視点をもたらす。今後のベンチマーク拡充や実用化が待たれる。