AI News HubLIVE
站内改写

アメリカはパングラム問題に直面している

AI検出ツールPangramは高い精度で知られるが、誤検出のリスクや悪用の懸念がある。教育現場やメディアでの依存が進む中、新たな問題を生み出す可能性がある。

最近、AI生成文章を自作と偽ったとする注目度の高い告発は、ほぼ全てPangramと呼ばれるツールから始まっている。3月、大手出版社のホラー小説が発売直前に回収されたのは、PangramがAI生成と判定したことが一因だった。他にも、ニューヨーク・タイムズの記事、権威ある文学賞を受賞した複数の短編小説、さらには教皇レオ14世のAI危険性に関する回勅のかなりの部分がAI生成と示唆されている。大学や科学協会も学生の課題や研究論文の精査にPangramを使用している。AI生成文章へのパニックが高まる中、Pangramはその基盤にある。

数年前までは、ボットか人間か即座に信頼性高く判別することは不可能に思えた。2023年にはZeroGPTが合衆国憲法をAI生成と判定し、同年OpenAIは「低精度」を理由に自社検出器を放棄した。当時ChatGPTの品質は現在より明らかに劣っていた。しかし最近、検出ツールは大幅に改善され、特にPangramが黄金基準として浮上した。テキストを貼り付けると、モデルは「AI生成」「AI支援」「人間作成」の割合を評価する。

しかし、ほぼ信頼できるAI検出器は、壊れたものよりも危険な場合がある。Pangramは名声やキャリアを終わらせる力を蓄積しているが、間違いを犯すこともあり、その程度は現在理解されているよりも大きいかもしれない。そうなれば、AI告発は急速に魔女狩りへと発展する可能性がある。

Pangramのアルゴリズムは非常に正確で、テキストを誤ってAI出力と識別するのは約1万分の1だという。「AI生成と断定することには大きな責任と重圧がある」とCEOのMax Speroは語る。「我々がそうするのは、極めて確信しているからだ」。いくつかの独立分析もその優れた性能を確認している。シカゴ大学の論文では、約3000のサンプル(500〜1000語)でPangramの誤検出はほぼゼロだった。

しかし、人間が書いたことを保証する能力はより脆弱だ。Speroが示したテストでは、Pangramの偽陰性率(モデルが誤ってテキストを人間とラベル付けする頻度)は約70分の1に近い。

問題の一部は、Pangramが主要AI研究所との軍拡競争にある。彼らはChatGPTやClaudeの文章をできるだけ自然で人間らしくすることに関心がある。同時に、PangramはAIテキストを人間らしく偽装する「人間化」プログラムとも戦わねばならない。RedditユーザーはWalter Writes AIという人間化ツールを絶賛しており、実際にテストしてみた。ChatGPTとClaudeに短い記事を書かせ、それをWalter Writes AIに貼り付けると、ツールは無難な言い換えやぎこちない移行句の置き換え、文法的な奇抜さを導入した。例えばChatGPTの「数字はもはや無視できるほど小さくない」は「これらの使用データの巨大さはもはや無視できない」となった。この出力をPangramに貼り付けると、常に人間作成と判定された。

つまりPangramは限られた洞察しか提供できない。ニューヨークの公立高校教師は、「生徒の論文をPangramにかけると100%人間と出るが、そうは思えない」と語る。生徒の能力を知っており、特にAI不正の前歴がある場合、Pangramを疑う十分な理由がある。しかし逆に、状況証拠だけで生徒をAI使用で告発するのはリスクが高い。生徒は不合格になるか、無罪になっても恨みを残す。「リスクは極めて高いが、AI生成を評価する方法はまだ未熟だ」と教師は言う。

さらに複雑なのは、Pangramのようなツールの設計が不透明なことだ。モデルは人間とボットの膨大な例を学習して訓練される。例えば実際の雑誌の書評と、同じ雑誌のスタイルでChatGPTが生成した書評を識別する。これは猫と犬の写真を数百万枚与えて違いを学習させる画像認識アルゴリズムに似ている。PangramはなぜAIか人間と判断したかの具体的な証拠やパターンを指摘できない。Speroはアルゴリズムの内部動作は「ほぼ解釈不可能」で、「AI支援」ラベルをより細分化したいが「まだ可能かどうかわからない」と述べている。AIチャットボットへの過度依存が懸念される中、別のブラックボックスアルゴリズムへの依存が重なるリスクがある。

SperoはPangramは「最終的な仲裁者であってはならず」、より徹底的な調査の出発点とすべきで、会社は報告されたエラーをすべて調査していると語る。また、煙探知機や空港スキャナーなど、我々が依存する検出技術はすべて基準誤差率を持っている。ある意味、最大の問題は技術自体ではなく、検出対象にある。

AI生成告発がエスカレートするにつれ、Pangramへの依存は高まるばかりだ。同ツールは教育プラットフォームCanvasと連携し、教師が学生の提出物をスキャンできる。米国には1000万人以上の高校生と約2000万人の大学生がおり、年間数十の課題を提出する。この規模では、1万分の1の誤差率でも大量の誤告発が発生する。

Pangramが現在の能力を維持または向上させる保証もない。チャットボットや人間化ツールが適応するにつれ、AI検出の効果は「予測できない理由で、予測できない時期に変動する」とNYUのTim Requarthは指摘する。学校や出版社がAI検出に依存するようになっても、精度の第三者評価は数週間から数ヶ月前のものであり、加速するAIの世界では時代遅れになる。AI検出の信頼性に基づくルールや規範は、干潮時に砂の城を建てるようなものだ。

これらすべては災害の予感を漂わせる。AI検出の曖昧さは、ほぼあらゆる告発や否定の余地を生む。今月初め、Taylor LorenzがVanity Fairの記事でAI使用をX上で非難され、彼女は強く否定した。Speroが調査し、Pangramの誤りを認めた。「編集履歴のおかげで助かった」とLorenzは語り、この経験で告発への懸念が高まった。「非常に偏執的になっている」

「AI生成」と「AI支援」は、偶然または悪意をもって混同されやすい。ウォールストリート・ジャーナルのJames Tarantoは最近Pangramを「名誉毀損マシン」と呼び、同紙の三つのオピニオン記事を誤ってAI生成と判定したと主張した。そのうち2人の著者はAIを使用したことを認めたが、Tarantoは「AI生成」と特徴づけるのは不正確で不当だと書いた。教皇の回勅を最初に分析した人物は、一部のセクションだけがAI生成または支援のように見えたことから、教皇自身ではなく上級バチカン官僚がAIを使用した可能性を指摘したが、「教皇はAIの危険について書くのにAIを使ったのか」という見出しは止められなかった。

これらは2023〜24年の剽窃戦争を思い出させる。その時はChristopher Rufoなどの右派活動家が著名学者や大学リーダーを剽窃で告発し、ハーバード大学学長Claudine Gayの辞任に至った。多くの告発は虚偽で、剽窃検出アルゴリズムに基づいていたが、当時それらはほとんど役に立たなかった。来るべきAI検出戦争はさらに論争を呼ぶだろう。

明確に言えば、Pangramは役に立たないわけではない。しかし問題はまさにそこにある。その結論は歪められ、異議を唱えられやすい。特にAIのどの使用が倫理的かについて誰も合意していない。チャットボットと同様、AI検出ツールは広く使えるほど効果的だが、完全に信頼できるほどではない。こうしてPangramは、捜しているAI製品の鏡像となっている。