2026-04-14 02:15 UTC+8站内改写3 分钟阅读更新: 2026-06-27 08:25 UTC+8

利用生成式AI培养面向未来的技能

谷歌研究与纽约大学合作开发了Vantage，这是一个利用生成式AI评估团队合作和批判性思维等面向未来技能的系统。该系统通过AI化身模拟对话，由执行LLM动态引导，评估结果与人类专家高度一致。目前Vantage已在Google Labs开放注册。

来源Google Research Blog

随着人工智能以前所未有的速度发展，对“面向未来”技能——即无论技术如何变革或自动化如何发展都仍然有价值的持久人类能力——的关注重新兴起。国际框架，如OECD的《2030年学习指南》和WEF的《未来就业报告》，已确定了一套核心技能，包括批判性思维、协作和创造性思维等。这些技能在AI崛起之前早已被视为重要，如今则变得比以往更加关键。

今日，谷歌研究团队发布了Vantage，一个通过利用生成式AI在模拟环境中创建对话来评估面向未来技能的研究实验。该实验与纽约大学的教学专家和研究人员合作开发，旨在为高中生和大学生提供一个练习和验证评估的沙盒环境，其构建方法与数学或科学等核心学术科目所使用的系统方法相同。Vantage现已在Google Labs开放英文注册。

测量难以测量的东西

在任何有效的学习过程中，反馈和评估都是核心，不仅对个人成长至关重要，也对教学效果起到促进作用。在全球教育体系中，往往被测量的事项就是被教授的内容。然而，面向未来的技能却难以测量。传统测试过于僵化，无法捕捉人们的思维过程和互动，且与现实世界中这些技能的使用方式相去甚远。虽然通过真实人际互动来测试这些技能是理想的，但这过于耗费资源，且难以标准化和一致评分。

研究团队的目标是探索如何用可扩展且经过验证的方法评估学生的面向未来技能，从而赋能教育工作者将课程与这些技能对齐，支持学生成长。

使用AI模拟团队评估技能

Vantage的实验设置让学习者与AI化身进行动态多轮对话，共同完成任务。此设置允许控制评估环境，同时模拟出比现有标准化测试更真实、更具代表性的互动。它提供了一个应对复杂人际和情境挑战的沙盒。

用户与AI化身在开放式场景中互动时，例如准备辩论或展示创意构想，一个执行LLM利用提供的评估标准引导AI化身进行有效评估。执行LLM持续分析对话状态，动态引入特定挑战——如反驳某个想法或引入冲突——为学习者提供展示技能的目标机会。它充当了下一代自适应评估引擎，引导对话以确保在对话结束时已收集到评估所需的信息。

任务完成后，AI评估器对照相同的严格评估标准分析对话记录，识别并测量技能应用的特定证据。学习者随后收到详细的技能图，包括可视化评分和针对其在对话中展示的技能的定性反馈。这使得人类技能发展的“隐形”进步变得可见且可操作。

与合作伙伴验证评估方法

为确保学术和教学严谨性，研究团队与纽约大学建立了研究合作伙伴关系。双方共同调查了常见评估标准，并将其与任务对齐。主要合作焦点是建立和验证评估方法，通过一项联合研究，对188名18-25岁的美国人进行测试，评估协作技能（冲突解决和项目管理）。研究聚焦两个关键问题：

能否引导对话以测试特定技能？ Vantage的关键创新在于使用执行LLM实现自适应评估。评估了LLM引导对话以针对特定技能（如冲突解决或项目管理）的效果。与未受引导的独立AI化身相比，执行LLM成功引导对话产生高密度信息，且自然流程得以保持。

LLM评估面向未来技能的准确度如何？ 将AI评估器的评分与纽约大学评分员使用相同教学标准的结果进行比较。结果显示，AI评估器与人类专家之间的一致性接近两位专家之间的一致性，表明AI评估器能提供与人类专家相当的评分。

此外，与OpenMic的合作在创意任务上进一步验证了AI评估器的能力。分析了180名学生的创意多媒体作品，AI评估器与人类专家的评分高度相关（皮尔逊相关系数0.88）。

展望课堂整合

在学校环境中，这种模拟环境可以为现有课程之上增加一个可测量的“技能层”，并融入学术任务中。例如，学生可以与AI化身辩论社会科学话题，或担任团队领导规划实验。学生将同时收到对学科内容理解和技能表现（如协作和批判性思维质量）的反馈。此方法将补充现有的学生小组项目，有潜力同时支持学术知识和持久技能的发展。

大规模实现面向未来的准备

这项研究探索了如何将重要的面向未来技能从难以测量转变为可大规模测量，从而实现更具包容性和准确的未来准备度表征。该实验是朝着更贴合未来需求的评估方法迈出的一步。研究团队希望新基础设施能支持整个生态系统的进一步研究和有效性研究。未来，研究人员将不仅能评估新工具对知识保持的影响，还能直接评估其对技能发展的影响。

展望未来，团队正在拓展研究以解决可迁移性的关键问题——即模拟沙盒中展示的技能如何转化为现实世界的人际互动。同时，考虑到人类技能的文化依赖性，团队将专注于在不同环境中探索性能，以确保技术的包容性和公平性。在评估之外，下一阶段将迈向技能成长，加深理解并衡量通过模拟环境练习后技能发展的有效性。