2025-11-12 10:46 UTC+8站内改写5 分钟阅读更新: 2026-06-27 08:25 UTC+8

给你的AI来一场求职面试

随着AI建议的重要性日益增加，我们需要更擅长评估AI。当前基准测试存在数据泄露、测试含义不明、难度不均等问题。但综合来看，它们仍衡量了潜在能力。然而，对于写作、商业咨询等特定任务，基准测试往往不足。作者提出通过“氛围”基准测试（如让AI画鹈鹕骑自行车）和真实任务测试（如OpenAI的GDPval研究）来深入了解AI模型，并强调组织应像面试员工一样系统性地测试AI。

来源One Useful Thing作者: Ethan Mollick

鉴于开发新AI需要投入大量精力（无论是字面意义还是比喻意义上的），我们却出奇地难以准确衡量它们的“智能”程度。最常见的方法是像对待人类一样给AI做测试，然后报告其正确率。这类测试有数十种，称为基准测试，是衡量AI随时间进步的主要方式。

但这种方法存在一些问题。首先，许多基准测试及其答案公开，导致部分AI无意或有意地将它们纳入训练数据，从而获得高分。即使没有发生这种情况，我们也常常不知道这些测试真正衡量的是什么。例如，流行的MMLU-Pro基准测试包含诸如“直立人的平均颅容量大约是多少？”和“摇滚传奇Cheap Trick 1979年现场专辑的标题中提到了哪个地方？”这样的问题，每个问题有十个选项。答对这些题能告诉我们什么？没人知道。更不用说测试往往未经过校准，我们不知道从84%正确率提升到85%是否与从40%提升到41%同样困难。此外，许多测试的最终分数可能无法达到，因为题目本身存在大量错误，且指标报告方式奇怪。

每个基准测试都有缺陷，但总体趋势一致——向上向右。AIME是较难的数学考试，GPQA测试科学和法律知识，MMLU是通用知识测试，SWE-bench和LiveBench测试编程能力，Terminal-Bench测试代理能力。尽管存在这些问题，所有这些基准测试综合起来似乎衡量了某种潜在能力因素。更高质量的基准测试如ARC-AGI和METR Long Tasks也显示出同样的上升甚至指数级趋势。这与AI在各行各业的实际影响测试结果一致，表明这种“智能”的提升确实转化为从医学到金融等领域的实际能力。

因此，集体而言，基准测试具有真正价值，但少数稳健的单个基准测试专注于数学、科学、推理和编程。如果你想衡量写作能力、社会学分析、商业建议或同理心，选择非常有限。我认为这给个人和组织都带来了问题。公司根据基准测试决定使用哪种AI，新型AI发布时也大肆宣传基准测试成绩。但实际关心的是哪个模型最适合自己的需求。

要弄清楚这一点，你需要给AI来一场面试。

基于“氛围”的基准测试

如果基准测试可能失败，有时“氛围”能成功。如果你用过足够多的AI模型，就能发现它们之间难以描述但易于识别的差异。结果，一些重度AI用户开发出了独特的基准测试。例如，Simon Willison要求每个模型画一只骑自行车的鹈鹕，而我要求每个图像和视频模型创作一只坐飞机的水獭。这些方法虽有趣，但能让你感知AI对事物关系的理解，即其“世界模型”。我还有许多其他测试，比如要求AI创建“遥远未来星际飞船控制面板”的JavaScript，或写一首富有挑战性的诗。我会让AI构建视频游戏和着色器，分析学术论文，还进行小型写作实验，包括时间旅行问题。每种测试都让我了解模型如何运作：错误多吗？答案与其他模型相似吗？它反复出现的主题和偏见是什么？等等。

稍加练习，就能轻松找到新模型的“氛围”。例如，一个写作练习：“写一段关于一个人的文字，他被告知一生只剩一万个词，于是像战时配给一样分配剩下的词。他还有47个词，抱着新生儿。”如果你经常使用这些AI，对结果不会感到惊讶。可以看到为什么Claude 4.5 Sonnet常被认为是强大的写作模型。你会注意到Gemini 2.5 Pro（目前这四者中最弱的）甚至没有准确记录使用的词数。你会发现GPT-5 Thinking在写小说时倾向于华丽风格，善于复杂隐喻，但有时牺牲连贯性和故事性。你还会发现新的中国开源模型Kimi K2 Thinking有类似问题，语句有趣但故事不太合理。

通过“氛围”进行基准测试——无论是故事、代码还是水獭——是个人感受AI模型的好方法，但非常主观。AI每次回答不同，除非严格控制，否则任何竞争都不公平。而且更好的提示可能带来更好的结果。最重要的是，我们依赖感觉而非实际测量——但“氛围”的明显差异表明，仅靠标准化基准测试是不够的，尤其是在特定任务上稍好一点的AI确实重要时。

基于真实世界的基准测试

当公司选择使用哪些AI系统时，他们通常将其视为技术和成本决策，依赖公共基准测试来确保购买了足够好的模型（如果他们使用任何基准测试的话）。这在某些用例中没问题，但很快会失效，因为AI在许多方面更像一个人，具有奇怪的能力和弱点，而不是软件。如果类比招聘而非技术采用，那么“足够好”的基准测试方法就更难站住脚。公司花费大量资金雇佣比平均水平更优秀的人，如果被雇佣者负责为许多人提供建议，他们会格外谨慎。对AI也需要类似的态度。你不应仅凭基准测试为公司选择模型，而需要进行严格的求职面试。

面试AI并非易事，但可以解决。可能最好的真实世界基准测试例子是OpenAI最近的GDPval论文。第一步是建立真实任务，OpenAI通过召集平均14年行业经验（从金融到法律到零售）的专家，生成复杂且现实的项目，人类专家平均需要4到7小时完成。第二步是让AI完成这些任务，同时还有人类专家（按小时计酬）完成同样任务。最后是评估阶段，OpenAI让另一组专家在不了解答案来自AI还是人类的情况下评分，每个问题耗时超过一小时。这工作量巨大。

但这也揭示了AI的强项（最佳模型在软件开发、个人财务顾问等领域击败人类）和弱项（药剂师、工业工程师、房地产经纪人轻松击败最佳AI）。你还可以看到不同模型表现不同（ChatGPT是更好的销售经理，Claude是更好的财务顾问）。因此，好的基准测试有助于我们弄清所谓的“AI能力锯齿边界”，并跟踪其随时间的变化。

但这些测试并未阐明一个关键问题：AI做决策时的潜在态度。例如，我给多个AI一个简短推销——一个我认为可疑的想法：一家通过无人机运送鳄梨酱的公司。我要求每个AI模型在1-10分内评估GuacaDrone的可行性，每个模型测十次（注意AI每次回答不同，所以必须多次测试）。单个AI模型内部其实相当一致，但不同AI之间差异很大。我个人会打2分或更低，但模型更仁慈。Grok认为这是个好主意，Microsoft Copilot也很兴奋。其他模型如GPT-5和Claude 4.5则更怀疑。

鳄梨酱无人机送货服务的可行性如何？

差异不可忽视。当你的AI大规模提供建议时，始终将想法评分高出或低出3-4分意味着始终将你导向不同方向。有些公司可能希望AI拥抱风险，另一些则希望避免风险。但无论如何，了解你的AI如何“思考”关键业务问题非常重要。

面试你的模型

随着AI模型在任务上越来越好，并更深入融入工作和生活，我们需要更认真地对待模型间的差异。对于日常使用AI的个人来说，基于“氛围”的基准测试可能足够。你可以只做水獭测试。不过，对我来说，水獭坐飞机已经太容易了，所以我尝试了提示词：“1960年代关于某个乐队在发生水獭群事件前最后一场著名音乐会的纪录片片段”，在Sora 2上得到了令人印象深刻的结果。

但大规模部署AI的组织面临不同挑战。是的，总体趋势清晰：更大、更新的模型通常在大多数任务上更好。但当你在决定哪个AI将处理数千个真实任务或为数百名员工提供建议时，“更好”还不够。你需要知道你的AI具体擅长什么，而不是AI平均擅长什么。

这正是GDPval研究所揭示的：即使在顶级模型中，不同任务的表现也差异显著。而GuacaDrone例子展示了另一个维度——当任务涉及对模糊问题的判断时，不同模型给出始终不同的建议。这些差异会大规模放大。一个在分析财务数据上稍差，或在推荐中始终更风险寻求的AI，影响的不是一个决定，而是数千个。

你不能依赖“氛围”来理解这些模式，也不能依赖通用基准测试来揭示它们。你需要系统地在AI实际要完成的工作和做出的判断上测试它。创建反映你用例的现实场景。多次运行以观察模式，并由专家评估结果。在你关心的任务上直接比较不同模型。这就像知道“这个模型在MMLU上得了85%”与知道“这个模型在我们财务分析任务上更准确，但在风险评估上更保守”之间的区别。而且你每年需要多次这样做，因为新模型不断出现并需要评估。

这项工作值得。你不会仅凭SAT成绩雇佣副总裁。你不应仅仅因为AI知道直立人的平均颅容量略低于1000立方厘米，就选择那个将为你组织数千个决策提供建议的AI。