生成AIで未来対応スキルを育成する
Google Researchとニューヨーク大学は、生成AIを活用してコラボレーションや批判的思考などの未来対応スキルを評価するシステム「Vantage」を開発しました。AIアバターとの会話をエグゼクティブLLMが動的に誘導し、評価は人間の専門家と同等の精度を示しています。VantageはGoogle Labsでサインアップ可能です。
AIが前例のない速度で進化する中、「未来対応スキル」―技術の変化や自動化に関わらず価値を持ち続ける人間の永続的な能力―への注目が再び高まっています。OECDの「学習コンパス2030」やWEFの「未来の仕事レポート」などの国際的なフレームワークは、批判的思考、コラボレーション、創造的思考などの中核的スキルを特定しており、AIの台頭以前から重要視されてきたこれらのスキルは、今やこれまで以上に重要になっています。
本日、Google Researchは、生成AIを活用してシミュレーション環境での会話を作成し、未来対応スキルを評価する研究実験「Vantage」を発表しました。ニューヨーク大学の教育学専門家や研究者と協力して開発されたVantageは、高校生や大学生に練習と検証済み評価のためのサンドボックス環境を提供することを目的としており、数学や科学などの主要教科で従来使われてきたのと同じ体系的な手法で構築されています。Vantageは現在、Google Labsで英語版のサインアップが可能です。
測定が難しいものを測定する
効果的な学習プロセスの中核にはフィードバックと評価があり、個人の成長と効果的な指導の両方に不可欠です。グローバルな教育システムでは、測定されるものが教えられるものであることがよくあります。しかし、未来対応スキルは測定が難しいことで知られています。典型的なテストは硬直的すぎて人々の思考プロセスや相互作用を捉えきれず、現実世界でのスキルの使われ方とはかけ離れています。実際の人間の相互作用でこれらのスキルをテストするのが理想的ですが、リソースがかかりすぎ、標準化や一貫した採点が困難です。
研究チームは、スケーラブルで検証済みのアプローチを用いて学生の未来対応スキルを評価し、教育者が授業をこれらのスキルに合わせ、学生の成長を支援できるようにする方法を模索しました。
AIシミュレーションチームによるスキル評価
Vantageの実験設定では、学習者がAIアバターと動的な多者間会話を行い、タスクを協力して完了します。この設定により、評価環境を制御しながら、既存の標準テストよりも本格的で現実的なシナリオをシミュレートできます。複雑な対人関係や状況の課題に対処するためのサンドボックスを提供します。
ユーザーがディベートの準備やクリエイティブなビジョンの提案などのオープンエンドなシナリオでAIアバターと対話する際、エグゼクティブLLMが提供された評価ルーブリックを使用して、AIアバターを効果的な評価へと導きます。エグゼクティブLLMは会話の状態を常に分析し、アイデアへの反対や対立の導入などの特定のチャレンジを動的に導入し、学習者にスキルを発揮する機会を提供します。これは次世代型アダプティブ評価エンジンとして機能し、会話終了時までに評価に必要な情報が収集されるように会話を誘導します。
タスク完了後、AI評価者が会話のトランスクリプトを厳格な評価ルーブリックに照らして分析し、スキル適用の具体的な証拠を特定・測定します。学習者は、会話中に示したスキルに関する視覚的なスコアと定性的フィードバックを含む詳細なスキルマップを受け取ります。これにより、人間のスキル開発の「目に見えない」進捗が可視化され、行動可能になります。
パートナーとの連携による評価の検証
学術的・教育学的な厳密性を確保するため、ニューヨーク大学との研究パートナーシップを確立しました。共同で共通のルーブリックを調査し、タスクに合わせて調整しました。主な焦点は評価アプローチの構築と検証であり、18〜25歳の米国人テスター188名を対象に、コラボレーションスキル(コンフリクト解決とプロジェクト管理)を評価するVantageタスクを完了する共同研究を実施しました。2つの主要な研究課題を検討しました。
- 特定のスキルをテストするために会話を誘導できるか? Vantageの重要な革新は、エグゼクティブLLMを使用したアダプティブ評価です。特定のスキル(コンフリクト解決やプロジェクト管理など)を対象として会話を誘導する効果を評価しました。誘導がない独立したAIアバターと比較して、エグゼクティブLLMは会話を成功裏に導き、高密度のスキル関連情報を生成し、自然な会話の流れを維持しながら評価対象スキルに関する情報を有意に多く引き出しました。
- LLMは未来対応スキルをどの程度正確にスコアリングできるか? AI評価者のスコアを、ニューヨーク大学の評価者が同じ教育学的ルーブリックを使用して付けたスコアと比較しました。結果、AI評価者と人間専門家間の一致度は、2人の専門家間の一致度と同程度であり、AI評価者が効果的な自動評価システムとして機能することが示されました。
また、永続的スキル評価のためのAIツールを開発するスタートアップOpenMicと協力し、創造性と英語の芸術に関する共同研究を実施しました。180名の学生の創造的なマルチメディア作品(英文学に関連するキャラクターインタビューやメディア記事など)を分析し、AI評価者のスコアとOpenMicの内部専門家のスコアを比較したところ、高い相関(ピアソンの相関係数0.88)が見られました。
教室への統合に向けた展望
学校環境では、このようなシミュレーション環境は、既存のカリキュラムの上に載る測定可能な「スキルレイヤー」を可能にし、学術タスクに統合される可能性があります。例えば、AIアバターと社会科学のトピックについて議論したり、実験計画を立てるチームリーダーの役割を担ったりする新しい形式の課題が考えられます。学生は、科目の理解度(例:実験の科学)とスキル(例:コラボレーションや批判的思考の質)の両方についてフィードバックを受け取ることができます。このアプローチは、既存の学生グループプロジェクトに追加され、学術知識と永続的スキルの発展を並行して支援する可能性があります。
大規模な未来対応の実現
この研究は、重要な未来対応スキルを測定困難から大規模に測定可能へと変換する方法を探求しています。それにより、より包括的で正確な未来対応度の表現が可能になります。この実験は、将来のニーズにより適合した評価アプローチへの一歩です。
研究チームは、新しいインフラがエコシステム全体でのさらなる研究や有効性研究を支援することを期待しています。今後、研究者は新しいツールが知識保持に与える影響だけでなく、スキル開発への直接的な影響も評価できるようになります。このような研究の可能性は大きく、さまざまな教育学的介入が時間の経過とともに人間の能力をどのように形成するかについての理解を深めることができます。
今後の展望として、シミュレーションサンドボックスで示されたスキルが現実世界の人間関係にどのように転移するかという重要な問題に取り組むため、研究を拡大しています。さらに、人間のスキルは文化的に位置づけられていることを認識し、テクノロジーが包括的で公平であることを保証するために、多様な設定でのパフォーマンスを調査します。評価を超えて、次のフェーズはスキルの成長へと移行し、シミュレーション環境での練習によるスキル開発の有効性を理解し測定することを深めていきます。