AIの幻影:なぜ誇大広告は持続できないと思うのか
この記事は、特に大規模言語モデルが100%の信頼性を達成できず、人間による検証が必要となり、効率性の向上を損なうと論じています。自動運転車やコード生成を例に挙げ、誇大広告と法外な評価は不当であり、ボトルネックは依然として人間の監督にあると主張しています。
十分に距離を置いて見れば、すべてはブラックボックスであり、内部の仕組みはわからないが、入力を与えて出力を観察することで学ぶことができる。大規模言語モデル(LLM)をそのようなブラックボックスだと仮定しよう。観察すると、出力は99%の確率で「正しい」ことがわかる(この数字は仮定であり、実際はもっと悪い可能性がある。重要なのは100%ではないという点だ)。
コンピューターは正確性と信頼性で知られている。入力Aに対して関数を実行すれば、常に出力Xが得られるとわかっている。パケット損失やメモリ破損が起きることもあるが、それらは予測可能な形で起こる。チェックサムと再送、ECCメモリを使用し、データ形式も損失や破損を検出できるようにしている。私たちの世界全体がこの信頼性に依存している。
システムを信頼できない場合を想像してほしい。1+1が常に2ではなく、99%の確率でしか正しくない。そんなシステムにどれほどの価値があるだろうか?状況にもよるが、確かなことは、出力を信頼できないためチェックが必要であり、そのためには人間が必要だということだ。
自動運転車でも同じことが見られる。実現可能なこと自体は非常に印象的だが、完全な自動運転ではない。ドライバーはハンドルを握り、AIが避けられないミスを犯したときに介入できるよう、まるで自分で運転しているかのように注意を集中しなければならない。しかし人間は集中力を保つのが難しく、退屈しやすい。私たちは自分で運転し続けるか、100%の信頼性を実現してハンドルを外し、車が自動運転する間に本を読めるようにする必要がある。100%だけが十分であり、99%では不十分だ。1%のミスの可能性があるから「運転」を強いられるのなら、実際に何を解決したことになるのか?
LLMの場合、人間が出力をチェックすることでどれだけの時間が節約できるのか?節約された時間で、AIベンダーが現在請求している補助金ベースの価格ではなく、実際の運用コストを正当化できるだろうか?コード作成の場合、LLMは100人のエンジニアが1年かけて検証する機能を1週間で生み出せるかもしれない。しかし、正確性、品質、安定性を重視するなら、人間がボトルネックとなり、それが回避できない。
したがって、AIの誇大広告が巨額の評価額が示すような天井知らずの約束を実現することは不可能だと考える。AIに価値がないとは言わないが、人々が信じさせようとしている価値よりはるかに低い可能性が高い。
追記:なぜ組織がLLMをプロセスの中核に据えながら、モデルが変更・調整されて予測不能な出力を生むことに驚くのか、私には理解できない。時々、光の当たり具合によって、LLMは仮想通貨のように見える。少なくとも私にはそう見える。
(著者注:この記事ではエネルギー浪費、汚染、知的財産権侵害、著作権侵害、AIによる自傷行為などは考慮していない。)