AI News HubLIVE
サイト内リライト7 分で読了

AIに何を持ち込むかが結果を決める

AI教育者のハーパー・キャロルへのインタビューでは、ファインチューニングとプロンプティングの違い、2025年にコーディングを学ぶべきかどうか、AI分野が一般とのコミュニケーションで間違っていることについて取り上げる。キャロルはAIをメディアと捉え、結果は使用者の投入に依存すると論じ、自身のライティングスタイルを再現するファインチューニングを実演し、直感を人間の重要な強みとして強調する。記事はAI支援ライティングのワークフローや、職を失う恐怖ではなく野心を高めることの重要性も探求する。

ソースO'Reilly AI & ML Radar著者: Tim O’Reilly

ハーパー・キャロルは、スタンフォード大学でコンピュータサイエンスを学び、Metaで機械学習エンジニアとして働き、2023年後半にはGPUコンピューティングのスタートアップで短期間働いた経験からAI教育の道に進んだ。そのスタートアップでは、オープンソースモデルのファインチューニング方法を理解している人がほとんどいないことに気づき、プラットフォームの登録促進のために執筆と教育を始めた。最初のガイドはMistral 7Bのリリース直後に投稿され、フォロワーは約50人だったが、5万ビューを獲得。2024年3月には、AIと機械学習の違いを説明する動画が500万回再生され、視聴者の20人に1人がフォローした。現在、複数プラットフォームで50万人以上のフォロワーを持ち、フルタイムのAI教育者となっている。

数学で世界を理解する

キャロルのAI学習の旅は数学への愛情から始まった。彼女はスタンフォード大学でコンピュータサイエンスを学び始めたが、アルゴリズムが素晴らしい数学パズルのように見えたからだ。やがて、AIは「数学で周りの世界を理解する」ことだと気づいた。テキストベースの大規模言語モデルはその一分野に過ぎない。この分野全体は「世界の数学」である。これは私たち全員が内面化すべき深い直感のように思える。

AIをメディアとして捉える

昨年発表された研究では、AIを使ってエッセイを書く人は、無支援で書く人に比べて脳活動が低下することがわかった。多くの反応は警戒だった。「認知を外部委託していて、脳が萎縮する」というものだ。キャロルの賢明な返答は、そうしたユーザーはAIに一文のプロンプトを与え、返ってきたものをそのまま受け入れているに違いないというものだった。彼女が言うように、それはAlexaに今週最も人気のある本を注文するよう指示するのと同じで、測定される脳活動が少ないのは当然だ。対照的に、Amazonで本を探すためにブラウジングや検索するのと、実際の書店まで車で行くのとの違いを考えてみよう。確かに違いはあるが、それは認知の外部委託ではなく、時間の節約であり、その時間は他の要求の厳しい認知タスクに使われる可能性が高い。

私のフレーミングでは、AIはメディアであり、言語や写真と同じだ。誰でも写真を撮ったり本を書いたりできる。すべての作家が使える言葉は同じであり、異なるのはそれを使って何をするかである。写真家の中には、他の人にはできないことをする人もいる。ソフトウェアも同じだ。アーロン・ソーキンの映画『ソーシャル・ネットワーク』で、ザッカーバーグのキャラクターがウィンクルボス兄弟について「もし君たちがFacebookの発明者なら、Facebookを発明していただろう」と言うセリフがある。アイデアとその実行は同じではない。ある人がAIにプロンプトを与え、出力はひどいものになる。別の人はAIを中心にプロセスを構築し、出力は素晴らしいものになる。メディアに何を持ち込むかが結果を決める。キャロルも同意した。

ファインチューニングはAIのサイケデリック

私はO'ReillyでAIをライティングと編集にどう活用できるか模索してきた。私たちが求めているのは、生産性を加速するが、誰も努力を払っていないときのベースモデルのようなコピーを生み出さないスキルとワークフローだ。この記事のようなまとめ記事は、AI支援ライティングの優れたユースケースだ。ソース資料として、参加者間の実際の会話(またはオンラインカンファレンスの場合はプレゼンテーション)のトランスクリプトがある。ハイライトを捉え、ソーシャルメディア向けのクリップを提案する構造化されたサマリーが欲しい。その後、私(またはこのAI支援ワークフローを使用する誰か)は、最初のドラフトを書き直したり、再配置したり、詳しく説明したり、削除したりできる。ゼロから書かれたドラフトほど良くないかもしれないが、正直なところ、サマリーがまったくないという代替案よりははるかに優れている。時間がなくてすべてを自力で書くことはできないからだ。

記事を書くときは、自分が取り組んでいて世に出そうとしているアイデアについて話している音声を録音して、同様の「トランスクリプト」を生成する。そしてClaudeにそれをより構造化されたものにまとめるよう依頼する。私はClaudeの出力を書き直し、違いを示し、学んだことをキャプチャするスキルを構築するよう依頼することで、Claudeが使える散文を生成する能力を向上させてきた。時間の経過とともに、私が満足できるものに近づきつつあり、今ではそれを一般化して、任意の著者の声を学習し、対象コンテンツタイプのさまざまな慣習(書籍、記事やブログ投稿、ソーシャルメディア、裏表紙のコピーやコースの説明などのマーケティング資料では大きく異なる可能性がある)を尊重し、『英文法の要素』やウィリアム・ジンサーの『オン・ライティング・ウェル』など、私のお気に入りのライティングに関する本からの編集提案を適用するシステムを構築している。

キャロルは別の角度から同じ問題に取り組んだ。彼女は自身のInstagramのキャプション、ビデオトランスクリプト、Xの投稿から約1,000のデータセットを構築し、それをコンテキストとしてClaudeに与え、自分のスタイルで書くように依頼した。残念ながら、プロンプトに実際の声の1,000の例があるにもかかわらず、出力は検出ツールで100% AIと判定された。そこで彼女は同じデータでオープンソースのLlamaモデルをファインチューニングした。ファインチューニングされた出力は100%人間と判定された。彼女はサウス・バイ・サウスウエストで、これがどれほど簡単かを示す説得力のあるデモを行った。約20分で完了したという。

キャロルがプロンプティングはファインチューニングのように出力分布を変えないと述べた後、私は彼女に、フランスの作家マルセル・プルーストについての話をした。これはスティーブ・ウィルソンとの会話で初めて使ったもので、アラン・ド・ボトンの『プルーストがあなたの人生を変える方法』から学んだ。友人が病気で寝込んでいるプルーストを訪ね、礼儀としてパリへの汽車の旅について話し始める。「もっとゆっくり」とプルーストは答える。このサイクルが数回繰り返され、最終的に友人は駅の階段で鳩に餌をやる老人のような小さな詳細を話すようになる。キャロルはそれを理解し、彼女独特の方法でさらにゆっくりと分解した:なぜコンテキスト内プロンプティングは失敗し、ファインチューニングは成功するのか。

基本的にAIモデルは巨大な数学的方程式であり、パラメータはトレーニング中は変数で、推論中は定数になる。トレーニングでモデルを調整するときは、トレーニング中に変数であるこれらの定数を調整して、入力を望ましい出力にマッピングする方法を学習している。モデルがデプロイされると、出力トークン上の確率分布は固定される。プロンプトに1,000の例を入れてパターンマッチングを依頼しても、固定された重みでそれを実行するよう求めている。表面の動作は少し曲がるが、基礎となる分布は変わらない。ファインチューニングでは、実際に重みとモデルが書きたい方法を変更できる。彼女が提案するトレーニングデータセットの構築方法は、自分の著作を取り、AIにその特徴的な癖で書き直させ、AIバージョンを入力、元のものをターゲット出力としてトレーニングするというものだ。モデルに「手がかり」を元に戻すように教えている。

人々はまだコーディングを学ぶべきか?

私たちは、人々がまだコーディングを学ぶべきかという避けられない質問にも時間を費やした。両者とも学ぶべきだと考えているが、かつてのようにプログラミング言語の詳細な構文を学び、試行錯誤で望ましい動作を得るために苦労する必要はない。キャロルの見解(私も同意する)は、「バイブコーディング」が敷居を下げたというものだ。これまで人を雇って製品を構築する余裕がなかった人々が、自分でできるようになった。しかし同時に天井も引き上げられた。なぜなら、システムを実際に理解している人々は、同じツールではるかに洗練されたものを構築できるからであり、これはAIをメディアとして捉える議論に戻る。

おそらく、どれだけコーディングを学ぶべきかという問題にとってより重要なのは、経験豊富な開発者は純粋なバイブコーダーが見逃す障害モードにも気づくということだ。キャロルは、友人がエージェントツールを使っているのを見た例を挙げた。そのツールはある時点からデータをWord文書に保存し、それを即席のデータベースとして使い始めていた。おそらくセッションがWord文書から始まったからだ。それは非常に遅く、非効率的だった。エンジニアはすぐに問題に気づく。バイブコーダーは何ヶ月もそのシステムを動かし続けてからようやく何かがおかしいと気づくかもしれない。だから、何が起こっているかを理解するのに十分なコーディングを学ぶべきだ。次世代にプログラミングを教える技術は、ソフトウェアアーキテクチャとエンジニアリングの基礎概念を強調する有用なプロジェクトを開発することになるだろう。

直感が差別化要因

シリコンバレーはロジックに大きく依存しており、良い決定はより良いデータ、より厳密な分析、よりシャープなモデルから生まれるという考え方に基づいている。この環境では、直感は「ソフトで曖昧なもの」として退けられることがある、とキャロルは指摘する。そしてそれはAIにとって間違った考え方だ。AIはロジックの軸が得意とすることをますます上手くこなすようになっているが、直感は依然として課題である。なぜなら直感はしばしばデータの言うことに反するからだ。良い直感は「入力に反する」ものであり、キャロルの言葉を借りればそうだ。データのパターンを認識するように訓練されたモデルは、ほぼ定義上、それらのパターンに反する決定を下すのに苦労する。スキルに基づく判断がAI支援エンジニアを強化するように、直感は長い間、独自の人間のスキルであり続ける可能性がある。それを重要視することで、業界は私たち自身と世界における私たちの位置に対してより謙虚な姿勢を持つようになるかもしれない。

この分野が間違っていること

最後に、AI分野が一般とのコミュニケーションで最も一貫して間違っていることは何かとキャロルに尋ねた。彼女は、公の議論の多くが恐怖を前面に押し出しすぎていると言う。雇用の喪失、急速に迫るAGI、そして衝撃を和らげるためにユニバーサル・ベーシック・インカムを必要とする困難な移行といったものだ。彼女はそれらが不可能な未来だと言っているわけではないが、それらはテクノロジーへの誤った導入だと考えている。多くの企業はAIを使って、同じことをより低コストで行う方法を問うている。より良い質問は、どうやって野心を高めるかだ。AIは個人の能力を拡張するだけではない。組織が試みることができるものを拡張する。しかし、それがうまくいくためには、誰もが実際にAIを学ばなければならない。AIを持つ者と持たざる者がいてはならない。つまり、より低コストのモデル、真剣なオープンソースへの投資、そして主要プラットフォームの隷属にならない企業が必要だ。

キャロルは、エンジニアからコードを一行も書いたことのない人々まで、さまざまな聴衆に対してこの点を強調してきた。「今のところ、恐れるものはほとんどありません」と彼女は言う。「AIはこの信じられないほど生産的なツールです。」彼女の見解では、苦労するのは完全に関わろうとしない人々だ。O'Reillyでは、私たちは組織レベルで同じナラティブのバージョンに取り組んできた。恐怖優先のナラティブは回避を生み、回避こそが実際に誰かを取り残すものだ。そこで私たちは、人々の現在の仕事から始め、AIを「ミックスイン」してより影響力を高める方法を考える企業のAI変革プラクティスを構築している。人間とエージェントの両方を同時に教え、協力してより生産的にする方法を学んでいる。

7月9日には、Trail of Bitsの共同創業者兼CEOであるダン・ガイドと、彼の会社がAIネイティブになるために使用したプレイブックについて話す予定です。これは今年の[un]promptedで初めて概説されたものです。彼は同じトークのバージョンを行い、その後約40分間、何が機能し、何が機能せず、何がまだ未解決であるかについての聴衆の質問に答えます。[un]prompted以来何が変わり、プレイブックが次にどこへ向かうのかをぜひご確認ください。こちらから登録してください。無料で誰でも参加できます。