AI News HubLIVE
サイト内リライト8 分で読了

AIスーパーフォーキャスターが登場

AIスーパーフォーキャスターが予測市場で驚異的なリターンを上げ、35ドルを200万ドルに変えた。現在のAIはトップの人間予測者とほぼ互角であり、約6ヶ月以内に同等になると予想される。AIの利点は速度と自動化にあり、特に金融分野で顕著だ。

ソースHacker News AI著者: Michelangelo11

先月初めに開催された年次予測市場会議では、予測市場がニッチな趣味から数十億ドル産業へと成長し、大統領の息子が顧問を務めるまでになった。しかし、すべての目はAIスーパーフォーキャスターに注がれていた。

あるAIスーパーフォーキャスターのスタートアップ創業者は、自分のAIが7ヶ月で35ドルを200万ドルに増やしたと語った。別の企業は、マーケットニュートラルなポートフォリオで株式市場を25%上回っていると主張する——もちろん運の可能性もあるが、KalshiやPolymarketでも同様の成績を収めている。

実際、私はこれらの話をすべて信じている。長期トレンドの外挿コミュニティは、AIが2026年から2027年にかけて最高の人間予測者を打ち負かすと予測していた。その瞬間はどのように訪れると思っていただろうか?雰囲気?論文?エッセイ?振り返ってみれば、確かに:AIが予測市場で莫大な利益を上げ、株式市場を快適なマージンで上回るという形で現れるだろう。

では、次は何が起こるのか?

AIスーパーフォーキャスターの使用

詳細に入る前に、何について話しているのかを明確にしよう。

AIスーパーフォーキャスターとは、通常ChatGPTやClaudeのようなフロンティアモデルを、予測に優れるように修正したものである。これは通常「スキャフォールド」——長い研究プロセスを通じてAIを手取り足取り導くプログラムで、様々なプロンプト、ツール、サブエージェントを作成するタイミングなどに関するアドバイスを含む——を意味する。全体的な体験は他のAIを使うのと似ているが、より多くの作業を行うため、より遅く、より高価である。

例を挙げるとわかりやすいだろう。株式市場を上回っていると主張するFutureSearchは、私に彼らのAIスーパーフォーキャスターを試して記事に書くことを許可してくれた。

テスト質問として——シリコンバレーの慈善家が最近、風邪などの呼吸器感染症を撲滅するプロジェクトを開始した——私はその成功確率を尋ねることにした。予測者は非常に正確な質問を必要とするため、2040年までに風邪の発生率が半減する確率を尋ねた:

2分以内に、AIは3つのサブエージェントを展開し、16のウェブサイトを読み込み、ちょうどスクリーンショットを撮った瞬間に「2040年までに広範な住宅用採用のためのASHRAE Standard 241空気清浄技術のスケーラビリティを調査中」だった。

5分後、答えが出た:2040年までに米国の呼吸器感染症が半減する確率は7%:

その説明:

エージェントの推論は、すべてが同時に成功しなければならない厳しい連鎖的な要件に基づいている:

  1. 生物学は厳しい。200以上の風邪ウイルス、150以上のライノウイルス血清型——50年にわたるワクチン開発の努力は失敗し、2025年末時点の専門家も5年以内の風邪ワクチンは期待していない。前例のない行動変化を伴うCOVIDロックダウン中でも、ライノウイルスの発生率はわずかに減少しただけで、すぐに回復した。
  1. Intercept自身のタイムラインは厳しい。彼らのロードマップは商業化まで5~7年以上を見込んでおり、第3相試験、FDA承認、2040年までの大量展開を達成する余裕はほとんどない。しかも資金は5億ドル未満(その規模にはおそらく少なすぎる)。
  1. 採用は未知数。軽度の病気に対して、定期的な点鼻薬や予防薬の遵守率は低いと予想される。空気清浄インフラは急激な改修費用と混合されたエビデンスベースに直面する(2025年の殺菌UVのRCTでは感染の有意な減少は見られなかった)。
  1. 測定は不可能かもしれない。米国には日常的な風邪の人口ベース監視がなく、2020~2026年のベースラインはパンデミック時代の行動で歪められているため、たとえ実際の進展があっても、50%以上の減少を検証することは困難である。

この取り組みは確かに斬新で信頼できるが、変革的なAI加速なしに14年で風邪の頻度を半減させるのは非常に高いハードルである。

よりソフトな閾値(例:2035年までに25%削減)を予測したり、具体的なInterceptの技術的アプローチ(点鼻薬 vs ワクチン vs 空気清浄)を有意義な影響の可能性でランク付けしたりすることもできる。

…そして、さらに学びたい場合のために、212のソースを引用していた。この予測には5分かかり、クレジットで8ドルを消費した。

しかし、これは本当なのか?理想的には2040年まで待つべきだろう。今のところ、私はその答えを別のスーパーフォーキャスターAIと比較し始めた。Preseenは、Kalshiでシードマネーを100,000倍にしたと主張する会社だ。彼らの答えは次の通り:

8.8% vs FutureSearchの7%、悪くない!

これらのどちらかが正しいのか?私は人間のスーパーフォーキャスターにこの質問を予測してもらい、AIと同じ結果が出るかどうかを確認した。彼女は文言の曖昧さに応じて5-10%と答えた。これも悪くない!

人間 vs 機械

もちろん、同じ実験を大規模に行い、AIと人間の比較を最終的に明らかにするのがさらに良い。

しかし、予測能力の測定は難しい。「質問の85%を正解する」などとは言えない。なぜなら、それは質問の難易度に完全に依存するからだ。もし質問が「明日の朝、太陽は昇るか」のようなものなら、100%の正解率でも印象的ではない。代わりに、異なる予測者同士をマッチングし、どちらが優れているかを判断することしかできない。絶対的な空間でのアンカリングは、直感的に予測能力を理解しているグループ(例:一般市民の平均、CIAアナリストなど)を含めることによってのみ行われる。

予測サイトMetaculusは、共通の指標でAIと人間をマッチングしている。以下は経時的な結果である:

Metaculusコミュニティ予測は、Metaculus上のすべての予測者の「集団的知恵」スタイルの集約である。Metaculusプロ予測者はトップのプロフェッショナルスーパーフォーキャスターである。このグラフは、Gemini 3.1が最先端だった2026年5月時点で、AIがコミュニティ予測に近づいていることを示している。これは決して小さな成果ではないが、プロのスーパーフォーキャスターレベルにはまだ遠い。

しかし、最近のブログ投稿で、Metaculusはコンテキストを追加している。上のグラフは、GPTやClaudeのような既製品の有名AIのみを測定している。FutureSearchのような予測に焦点を当てたスキャフォールドはカウントされていない。Metaculusの別の調査では、これらの取り組みは「ベースモデルの9ヶ月分の進歩に相当する」、つまり適切にスキャフォールドされた今日のAIは、9ヶ月後のベースモデルと同じくらい予測が得意であることがわかった。

グラフ上の緑の点線を2026年7月に延長し、さらにスキャフォールディングの9ヶ月を加えると、最高のAIは約31点で、トッププロ予測者の36点に迫る。理論上、世界最高の予測者はまだトップAIを打ち負かしているが、勝利のマージンはグラフが示すよりも小さく、約6ヶ月以内に人間とAIのパリティが達成されるはずである。

しかし、スキャフォールドされたAIがベースモデルより9ヶ月遅れているという主張自体が約9ヶ月前のものである。業界の数人が、これは真の進歩を過小評価していると私に語った。AIスタートアップ自身の主張は懐疑的に扱われるべきだが、何人かのトップ人間スーパーフォーキャスターでさえ、もはやボットに勝てる自信がないと述べた。

直接対決の時が来たようだ。Metaculusカップ——予測のワールドカップ!——が動き出している。シーズンごとに、トップの人間とAIが「次のネパール選挙の勝者は?」や「米国はイランを攻撃するか?」など約50の質問で競う。直近のトーナメントの勝者は以下の通り:

人間がトップ2を占めたが、PreseenのAIが3位に入った。すべての予測コンテストには多量の運が関与するため、現実的には現時点で人間とAIは統計的なデッドヒートにある。

進行中の夏のMetaculusカップの中間結果を確認することで裏付けられる:

春のトップ10に入った人間のうち、2/10(benshindelとMarcosO)が夏も同じ成績を繰り返した。トップ10のAIも2つ(manticAIとLaertes)が同様だが、Preseen-Chestnutは厳しい夏を過ごし、40位に落ちている。

産業革命の伝承には、偉大な鋼鉄削岩機ジョン・ヘンリーの話がある。彼は機械が自分を時代遅れにしていることを受け入れず、蒸気ドリルに挑戦し、辛勝したが、その後倒れて死に、肉体労働における人間の優位性の終焉を象徴した。これが、今夏のMetaculusカップにおけるベン・シンデルとマルコスOの役割だと私は考えている。人間はまだ持ちこたえているが、いつまで続くか?

これは予測問題なので、Metaculusの予測オタク全員が意見を持っている。彼らは、今夏のMetaculusカップでボットが勝つ確率を15%、2030年までに勝つ確率を95%と見積もっている。

もしボットがトップ人間を完全に打ち負かしていないなら、なぜ人々は自分のボットが株式市場を打ち負かしたり、Kalshiで数百万ドルを稼いだりした話をできるのか?私は複合的な理由だと思う。

第一に、世界最高の人間スーパーフォーキャスターもおそらく株式市場を打ち負かす。誰かがやらなければならず、世界最高の人間予測者はそのようなことをするタイプの人々のように思える。これは、ブリッジウォーターのような大手ヘッジファンドがスーパーフォーキャスターを雇い続ける理由も説明する。

第二に、AIは人間よりも速く勤勉である。多くの人が予測市場を打ち負かすことはできる。しかし、どの市場に未開のアルファがあるかを理解するのに数時間、モデルを作って誰にどの確率で賭けるかを決定するのにさらに数時間かかり、非効率が修正されて次のものに移らなければならない前に数千ドルしか投入できない。AIはそのプロセスを自動化し、毎週何百もの市場に賭けることができる。Kalshiで35ドルを7ヶ月で200万ドルに変えた男に、あと7ヶ月で再び100,000倍にして2000億ドルにできるか尋ねた。当然、彼はノーと言った——Kalshiには簡単な金が限られており、彼のAIはすでにそれをすべて取ってしまった(また、同様のAIを持つ他の人々が彼と争い始めている!)

第三に、最も推測的だが、AIは金融において特別な優位性を持つかもしれない。これはまさに、機械が最も優れやすい、よく閉じられたデータ集約型の領域である。Metaculusの市場パルス競争では、純粋な金融に焦点を当てたトーナメントで、Preseenのボットがすべての人間(カップのライバルMarcosOを含む)を打ち負かして1位を獲得した。

(「もしこれが本当なら、なぜすべてのトップトレーディング企業がAIへの切り替えに殺到しないのか?」詳細はわからないが、ジェーン・ストリートは自社のデータセンターを建設している。あの計算リソースを何に使うのか気になる?)

証拠の最良の要約は、最高の人間スーパーフォーキャスターと最高のボットは明確に区別するには近すぎるが、あえて推測するなら、ボットは金融においてわずかに優れており、人間は他のすべての分野でわずかに優れている、というものだと思う。

ボットがトップ人間とほぼ同等の世界に生きる

AIがこれ以上改善しないと仮定しよう。何が起こるだろうか?何か起こるだろうか?すでにトップの人間スーパーフォーキャスターがいる。同じくらい優れているが、それ以上ではないボットは何かを追加するだろうか?

はい。トップの人間スーパーフォーキャスターから情報を得るのは難しい。まず、見つける必要がある。彼らにつなげてくれる会社はあるが、すべての会社と同様に、費用がかかり、時間がかかり、扱いにくい。次に、正確に何を意味するのかについて長時間話し合う必要がある(風邪の総数が半減するのか、それとも年間に風邪をひく人の数が半減するのか?)そして、彼らが問題を調査し、意見をまとめるまで数週間待つ必要がある。最後に、利害関係者に答えが意味を持つことを納得させる必要がある(「スーパーフォーキャスターから得ました!彼らは…ええと、このフィリップ・テトロックの本を読んでくれますか?たぶん私よりうまく説明してくれます。」)その結果、スーパーフォーキャスターを使うことは一大事である。ごく一部の機関だけが、非常に重要なごく一部の質問に対してそれを行っている。

しかし、AIスーパーフォーキャスターは民主化する。あなたはプロンプトを入力し、数分待ち、答えを得る。引用や推論の説明も得られる。それはあたかも、いつでも相談できるスーパーフォーキャスターをポケットに持っているようなものだ。

だから、AIが単に人間と同等になったとしても、予測の普及に大きな影響を与えるだろう。意思決定はより情報に基づき、予測市場はより効率的になり、政策やビジネス戦略はより迅速に調整されるかもしれない。

しかし、AIが人間を超えた場合、何が起こるか?その時、私たちは真に未知の領域に入る。機械が未来を人間よりも正確に予測できる世界では、意思決定全体が機械に委ねられるかもしれない。それは社会に深遠な影響を与えるだろう——良い面も悪い面も含めて。

今のところ、私たちは瀬戸際に立っている。人間とAIのデッドヒートは間もなく終わりを迎える。次のMetaculusカップが決定的なものになるかもしれない。あるいは、誰かが突然のブレイクスルーを起こすかもしれない。しかし、確かなことが一つある:AIスーパーフォーキャスターはここにあり、未来を予測する方法を変えつつある。