2025-11-12 11:46 UTC+9サイト内リライト7 分で読了更新: 2026-06-27 09:25 UTC+9

AIに就職面接を行う

AIのアドバイスの重要性が増すにつれ、それを評価する能力も向上させる必要があります。現在のベンチマークにはデータ漏洩、意味の不明確さ、難易度の未較正などの問題があります。しかし、総合的には基礎的な能力を測定しています。ただし、文章作成やビジネスアドバイスなどの特定のタスクでは不十分です。著者は「雰囲気ベース」のベンチマーク（例えば、ペリカンが自転車に乗っている絵を描かせる）や、OpenAIのGDPvalのような実世界タスクのテストを提案し、組織は従業員を採用するかのようにAIを体系的に評価すべきだと論じています。

ソースOne Useful Thing著者: Ethan Mollick

新しいAIの開発に膨大なエネルギー（文字通りにも比喩的にも）が費やされているにもかかわらず、AIの「賢さ」を正確に測定することは驚くほど困難です。最も一般的なアプローチは、AIを人間のように扱い、テストを課して正解数を報告することです。このようなテストは数十種類あり、ベンチマークと呼ばれ、AIの経時的な進歩を測定する主要な手段となっています。

しかし、このアプローチにはいくつかの問題があります。まず、多くのベンチマークとその解答が公開されているため、一部のAIは意図的か偶発的にか、それらを学習データに組み込んで高いスコアを獲得します。たとえそうでなくても、これらのテストが実際に何を測定しているのか分からないことがよくあります。例えば、非常に人気のあるMMLU-Proベンチマークには、「ホモ・エレクトスの平均頭蓋容量は約何ccか？」や「ロックの伝説的バンド、Cheap Trickの1979年のライブアルバムのタイトルにある場所はどこか？」といった質問が含まれており、それぞれ10の選択肢があります。これらに正解することが何を示すのでしょうか？私には見当もつきません。さらに、テストは未較正であることが多く、正解率84％から85％への上昇が、40％から41％への上昇と同じくらい難しいのかどうかも分かりません。その上、多くのテストでは、問題自体に多数の誤りがあり、指標が異常な方法で報告されるため、実際の最高スコアに達することは不可能かもしれません。

すべてのベンチマークには欠陥がありますが、傾向はすべて同じ方向、つまり右上がりです。AIMEは難しい数学の試験、GPQAは科学と法律の知識、MMLUは一般知識、SWE-benchとLiveBenchはコーディング、Terminal-Benchはエージェント能力をテストします。これらの問題にもかかわらず、これらのベンチマークを総合すると、何らかの基礎的な能力因子を測定しているように見えます。ARC-AGIやMETR Long Tasksのような高品質なベンチマークも、同じ上昇傾向、さらには指数関数的な傾向を示しています。これは、医学から金融に至るまでの業界におけるAIの実際の影響のテストと一致しており、基礎的な「賢さ」の向上が実際の能力に変換されていることを示唆しています。

したがって、総合的にはベンチマークには真の価値がありますが、数学、科学、推論、コーディングに焦点を当てた堅牢な個別ベンチマークはわずかです。文章作成能力、社会学分析、ビジネスアドバイス、共感力を測定したい場合、選択肢はほとんどありません。私はこれが個人と組織の両方に問題を引き起こしていると考えています。企業はベンチマークに基づいて使用するAIを決定し、新しいAIはベンチマークのパフォーマンスを誇らしげに発表してリリースされます。しかし、実際に気にするのは、どのモデルが自社のニーズに最適かです。

これを自分で判断するには、AIに面接を行う必要があります。

雰囲気によるベンチマーク

ベンチマークが失敗することがあるなら、「雰囲気」が成功することもあります。多くのAIモデルを扱っていると、説明は難しいが容易に認識できる違いが見えてきます。その結果、AIを頻繁に使用する人の中には、独自のベンチマークを開発する人もいます。例えば、Simon Willisonはすべてのモデルにペリカンが自転車に乗っている絵を描かせ、私はすべての画像・動画モデルにカワウソが飛行機に乗っているものを作成するよう依頼します。これらのアプローチは楽しいだけでなく、物事の関係性に関するAIの理解、つまり「世界モデル」を把握するのに役立ちます。他にも、AIに「遠い未来の宇宙船のコントロールパネル」のJavaScriptを作成させたり、挑戦的な詩を作らせたりします。AIにビデオゲームやシェーダーを作成させ、学術論文を分析させます。また、タイムトラベルに関する質問を含む小さな文章実験も行います。それぞれが、モデルの動作方法についての洞察を与えてくれます：エラーは多いか？答えは他のモデルと似ているか？繰り返し現れるテーマやバイアスは何か？などです。

少し練習すれば、新しいモデルの「雰囲気」を簡単に見つけられるようになります。一例として、文章作成の練習を試してみましょう：「ある人が、生涯に残された言葉はあと一万語しかないと告げられ、戦時中の配給のように残りの言葉をやりくりしている。残り47語となり、生まれたばかりの我が子を抱いている。」という段落を一つ書いてください。これらのAIをよく使っている人なら、結果に驚かないでしょう。Claude 4.5 Sonnetがなぜ強力な文章作成モデルと見なされているかがわかります。Gemini 2.5 Pro（現在これら4つのモデルの中で最も弱い）は、使用した単語数を正確に追跡できていないことに気づくでしょう。GPT-5 Thinkingは、フィクションを書くときにはかなり派手なスタイルで、複雑な比喩を好む傾向がありますが、一貫性やストーリー性を犠牲にすることがあります（47語すべてを使うかどうかはわかりませんが、少なくとも単語数は正しかったです）。そして、新しい中国のオープンウェイトモデルKimi K2 Thinkingにも似たような問題があり、興味深いフレーズはあるものの、ストーリーが完全には意味をなしていないことがわかります。

「雰囲気」によるベンチマーク（ストーリー、コード、カワウソなど）は、個人がAIモデルの感触をつかむのに最適な方法ですが、非常に主観的です。AIは毎回異なる答えを返すため、厳密に管理しない限り、競争は不公平です。また、優れたプロンプトはより良い結果をもたらす可能性があります。最も重要なのは、実際の測定ではなく感覚に頼っていることです。しかし、雰囲気の明らかな違いは、標準化されたベンチマークだけでは不十分であることを示しています。特に、特定のタスクにおいて少しでも優れたAIが実際に重要である場合には。

実世界でのベンチマーク

企業がどのAIシステムを使用するかを選択する際、多くの場合、これをテクノロジーとコストの決定と見なし、公共のベンチマークに依存して十分に良いモデルを購入していることを確認します（そもそもベンチマークを使用する場合）。これは一部のユースケースでは問題ありませんが、多くの点でAIはソフトウェアというよりも人に似ており、奇妙な能力と弱点を持っているため、すぐに破綻します。そして、技術採用の類推ではなく採用の類推を使うなら、「十分に良い」というベンチマークアプローチを正当化するのは難しくなります。企業は平均以上の仕事ができる人を雇うためにお金を費やしており、その人が他の多くの人にアドバイスする責任を持つ場合、特に注意を払うでしょう。AIにも同様の姿勢が必要です。ベンチマークだけで会社のモデルを選ぶべきではなく、厳格な就職面接を実施する必要があります。

AIの面接は簡単な問題ではありませんが、解決可能です。おそらく、実世界向けベンチマークの最良の例は、OpenAIの最近のGDPval論文です。最初のステップは実際のタスクを確立することであり、OpenAIは金融から法律、小売に至るまで平均14年の経験を持つ専門家を集め、人間の専門家が完了するのに平均4〜7時間かかる複雑で現実的なプロジェクトを生成させました。第二のステップは、これらのタスクに対してAIをテストすることです。この場合、複数のAIモデルと他の人間の専門家（時間給で支払われた）が各タスクを実行しました。最後に評価段階です。OpenAIは第三の専門家グループに、どの回答がAIからのものか人間からのものかを知らせずに結果を評価させ、1問あたり1時間以上かかりました。全体として、これは多くの作業でした。

しかし、これによりAIの得意分野（最良のモデルはソフトウェア開発から個人財務アドバイザーに至るまで人間を凌駕）と苦手分野（薬剤師、産業エンジニア、不動産エージェントは最良のAIを簡単に凌駕）が明らかになりました。さらに、モデルによってパフォーマンスが異なることもわかります（ChatGPTはより優れたセールスマネージャー、Claudeはより優れた財務アドバイザー）。したがって、優れたベンチマークは、私たちが「AI能力のギザギザフロンティア」と呼ぶものの形状を理解し、時間の経過に伴う変化を追跡するのに役立ちます。

しかし、これらのテストでさえ、重要な問題、つまりAIが意思決定を行う際の根本的な態度を明らかにしていません。その方法の一例として、私はいくつかのAIに、私が怪しいと思うアイデア（ドローンでワカモレを配達する会社）の短い売り込みをしました。各AIモデルに、GuacaDroneの実現可能性を1〜10のスケールで10回評価するよう依頼しました（AIは毎回異なる答えを返すため、複数回テストする必要があります）。個々のAIモデルの回答は実際にはかなり一貫していましたが、AIごとに大きく異なりました。私個人ならこのアイデアに2以下を付けますが、モデルはより好意的でした。Grokは素晴らしいアイデアだと考え、Microsoft Copilotも興奮していました。GPT-5やClaude 4.5のような他のモデルはより懐疑的でした。

ワカモレドローン配達サービスのアイデアの実現可能性は？

違いは無視できません。AIが大規模にアドバイスを提供する際、一貫してアイデアを3〜4ポイント高くまたは低く評価することは、一貫して異なる方向に導くことを意味します。リスクを受け入れるAIを望む会社もあれば、避けたい会社もあるでしょう。いずれにせよ、AIが重要なビジネス問題についてどのように「考える」かを理解することが重要です。

あなたのモデルに面接を行おう

AIモデルがタスクに優れ、私たちの仕事や生活にますます統合されるにつれて、モデル間の違いをより真剣に受け止める必要があります。日々AIを扱う個人にとっては、雰囲気ベースのベンチマークで十分でしょう。カワウソテストを実行すればよいのです。ただし、私の場合、飛行機の中のカワウソはもう簡単すぎるので、Sora 2で「1960年代のドキュメンタリー映像。あのバンドが、カワウソの大群との事件の前に行った最後の有名なコンサートのもの」というプロンプトを試してみたところ、印象的な結果が得られました。

しかし、大規模にAIを導入する組織は異なる課題に直面しています。確かに全体的な傾向は明らかです。より大きく、より新しいモデルは、ほとんどのタスクで概して優れています。しかし、数千の実タスクを処理したり、数百の従業員にアドバイスしたりするAIを選択する際には、「より優れている」だけでは不十分です。自分のAIが何に優れているかを具体的に知る必要があり、AIが平均的に何に優れているかではありません。

それがGDPval研究で明らかになったことです。トップモデルの中でも、タスクによってパフォーマンスは大きく異なります。そしてGuacaDroneの例は別の次元を示しています。曖昧な質問に対する判断が求められるタスクでは、異なるモデルが一貫して異なるアドバイスを提供します。これらの違いは規模が大きくなると増幅されます。財務データの分析がわずかに劣っていたり、推奨事項が常にリスク志向であったりするAIは、一つの決定だけでなく、数千の決定に影響を与えます。

これらのパターンを理解するために雰囲気に頼ることはできませんし、一般的なベンチマークに頼って明らかにすることもできません。AIが実際に行う作業と下す判断について、体系的にテストする必要があります。ユースケースを反映した現実的なシナリオを作成します。複数回実行してパターンを観察し、専門家が結果を評価する時間を取ります。自分にとって重要なタスクでモデルを直接比較します。これは、「このモデルはMMLUで85％を獲得した」と知ることと、「このモデルは財務分析タスクではより正確だが、リスク評価ではより保守的である」と知ることの違いです。そして、新しいモデルが登場して評価が必要になるたびに、年に数回これを実行できる必要があります。

この作業には価値があります。SATスコアだけで副社長を採用することはないでしょう。ホモ・エレクトスの平均頭蓋容量が約1000ccであることを知っているからといって、組織の数千の決定にアドバイスを与えるAIを選ぶべきではありません。