2025-11-12 10:46 UTC+8站內改寫5 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

給你的AI來一場求職面試

隨着AI建議的重要性日益增加，我們需要更擅長評估AI。當前基準測試存在數據泄露、測試含義不明、難度不均等問題。但綜合來看，它們仍衡量了潛在能力。然而，對於寫作、商業諮詢等特定任務，基準測試往往不足。作者提出通過“氛圍”基準測試（如讓AI畫鵜鶘騎自行車）和真實任務測試（如OpenAI的GDPval研究）來深入瞭解AI模型，並強調組織應像面試員工一樣系統性地測試AI。

來源One Useful Thing作者: Ethan Mollick

鑑於開發新AI需要投入大量精力（無論是字面意義還是比喻意義上的），我們卻出奇地難以準確衡量它們的“智能”程度。最常見的方法是像對待人類一樣給AI做測試，然後報告其正確率。這類測試有數十種，稱為基準測試，是衡量AI隨時間進步的主要方式。

但這種方法存在一些問題。首先，許多基準測試及其答案公開，導致部分AI無意或有意地將它們納入訓練數據，從而獲得高分。即使沒有發生這種情況，我們也常常不知道這些測試真正衡量的是什麼。例如，流行的MMLU-Pro基準測試包含諸如“直立人的平均顱容量大約是多少？”和“搖滾傳奇Cheap Trick 1979年現場專輯的標題中提到了哪個地方？”這樣的問題，每個問題有十個選項。答對這些題能告訴我們什麼？沒人知道。更不用説測試往往未經過校準，我們不知道從84%正確率提升到85%是否與從40%提升到41%同樣困難。此外，許多測試的最終分數可能無法達到，因為題目本身存在大量錯誤，且指標報告方式奇怪。

每個基準測試都有缺陷，但總體趨勢一致——向上向右。AIME是較難的數學考試，GPQA測試科學和法律知識，MMLU是通用知識測試，SWE-bench和LiveBench測試編程能力，Terminal-Bench測試代理能力。儘管存在這些問題，所有這些基準測試綜合起來似乎衡量了某種潛在能力因素。更高質量的基準測試如ARC-AGI和METR Long Tasks也顯示出同樣的上升甚至指數級趨勢。這與AI在各行各業的實際影響測試結果一致，表明這種“智能”的提升確實轉化為從醫學到金融等領域的實際能力。

因此，集體而言，基準測試具有真正價值，但少數穩健的單個基準測試專注於數學、科學、推理和編程。如果你想衡量寫作能力、社會學分析、商業建議或同理心，選擇非常有限。我認為這給個人和組織都帶來了問題。公司根據基準測試決定使用哪種AI，新型AI發佈時也大肆宣傳基準測試成績。但實際關心的是哪個模型最適合自己的需求。

要弄清楚這一點，你需要給AI來一場面試。

基於“氛圍”的基準測試

如果基準測試可能失敗，有時“氛圍”能成功。如果你用過足夠多的AI模型，就能發現它們之間難以描述但易於識別的差異。結果，一些重度AI用户開發出了獨特的基準測試。例如，Simon Willison要求每個模型畫一隻騎自行車的鵜鶘，而我要求每個圖像和視頻模型創作一隻坐飛機的水獺。這些方法雖有趣，但能讓你感知AI對事物關係的理解，即其“世界模型”。我還有許多其他測試，比如要求AI創建“遙遠未來星際飛船控制面板”的JavaScript，或寫一首富有挑戰性的詩。我會讓AI構建視頻遊戲和着色器，分析學術論文，還進行小型寫作實驗，包括時間旅行問題。每種測試都讓我瞭解模型如何運作：錯誤多嗎？答案與其他模型相似嗎？它反覆出現的主題和偏見是什麼？等等。

稍加練習，就能輕鬆找到新模型的“氛圍”。例如，一個寫作練習：“寫一段關於一個人的文字，他被告知一生只剩一萬個詞，於是像戰時配給一樣分配剩下的詞。他還有47個詞，抱着新生兒。”如果你經常使用這些AI，對結果不會感到驚訝。可以看到為什麼Claude 4.5 Sonnet常被認為是強大的寫作模型。你會注意到Gemini 2.5 Pro（目前這四者中最弱的）甚至沒有準確記錄使用的詞數。你會發現GPT-5 Thinking在寫小説時傾向於華麗風格，善於複雜隱喻，但有時犧牲連貫性和故事性。你還會發現新的中國開源模型Kimi K2 Thinking有類似問題，語句有趣但故事不太合理。

通過“氛圍”進行基準測試——無論是故事、代碼還是水獺——是個人感受AI模型的好方法，但非常主觀。AI每次回答不同，除非嚴格控制，否則任何競爭都不公平。而且更好的提示可能帶來更好的結果。最重要的是，我們依賴感覺而非實際測量——但“氛圍”的明顯差異表明，僅靠標準化基準測試是不夠的，尤其是在特定任務上稍好一點的AI確實重要時。

基於真實世界的基準測試

當公司選擇使用哪些AI系統時，他們通常將其視為技術和成本決策，依賴公共基準測試來確保購買了足夠好的模型（如果他們使用任何基準測試的話）。這在某些用例中沒問題，但很快會失效，因為AI在許多方面更像一個人，具有奇怪的能力和弱點，而不是軟件。如果類比招聘而非技術採用，那麼“足夠好”的基準測試方法就更難站住腳。公司花費大量資金僱傭比平均水平更優秀的人，如果被僱傭者負責為許多人提供建議，他們會格外謹慎。對AI也需要類似的態度。你不應僅憑基準測試為公司選擇模型，而需要進行嚴格的求職面試。

面試AI並非易事，但可以解決。可能最好的真實世界基準測試例子是OpenAI最近的GDPval論文。第一步是建立真實任務，OpenAI通過召集平均14年行業經驗（從金融到法律到零售）的專家，生成複雜且現實的項目，人類專家平均需要4到7小時完成。第二步是讓AI完成這些任務，同時還有人類專家（按小時計酬）完成同樣任務。最後是評估階段，OpenAI讓另一組專家在不瞭解答案來自AI還是人類的情況下評分，每個問題耗時超過一小時。這工作量巨大。

但這也揭示了AI的強項（最佳模型在軟件開發、個人財務顧問等領域擊敗人類）和弱項（藥劑師、工業工程師、房地產經紀人輕鬆擊敗最佳AI）。你還可以看到不同模型表現不同（ChatGPT是更好的銷售經理，Claude是更好的財務顧問）。因此，好的基準測試有助於我們弄清所謂的“AI能力鋸齒邊界”，並跟蹤其隨時間的變化。

但這些測試並未闡明一個關鍵問題：AI做決策時的潛在態度。例如，我給多個AI一個簡短推銷——一個我認為可疑的想法：一家通過無人機運送鱷梨醬的公司。我要求每個AI模型在1-10分內評估GuacaDrone的可行性，每個模型測十次（注意AI每次回答不同，所以必須多次測試）。單個AI模型內部其實相當一致，但不同AI之間差異很大。我個人會打2分或更低，但模型更仁慈。Grok認為這是個好主意，Microsoft Copilot也很興奮。其他模型如GPT-5和Claude 4.5則更懷疑。

鱷梨醬無人機送貨服務的可行性如何？

差異不可忽視。當你的AI大規模提供建議時，始終將想法評分高出或低出3-4分意味着始終將你導向不同方向。有些公司可能希望AI擁抱風險，另一些則希望避免風險。但無論如何，瞭解你的AI如何“思考”關鍵業務問題非常重要。

面試你的模型

隨着AI模型在任務上越來越好，並更深入融入工作和生活，我們需要更認真地對待模型間的差異。對於日常使用AI的個人來説，基於“氛圍”的基準測試可能足夠。你可以只做水獺測試。不過，對我來説，水獺坐飛機已經太容易了，所以我嘗試了提示詞：“1960年代關於某個樂隊在發生水獺羣事件前最後一場著名音樂會的紀錄片片段”，在Sora 2上得到了令人印象深刻的結果。

但大規模部署AI的組織面臨不同挑戰。是的，總體趨勢清晰：更大、更新的模型通常在大多數任務上更好。但當你在決定哪個AI將處理數千個真實任務或為數百名員工提供建議時，“更好”還不夠。你需要知道你的AI具體擅長什麼，而不是AI平均擅長什麼。

這正是GDPval研究所揭示的：即使在頂級模型中，不同任務的表現也差異顯著。而GuacaDrone例子展示了另一個維度——當任務涉及對模糊問題的判斷時，不同模型給出始終不同的建議。這些差異會大規模放大。一個在分析財務數據上稍差，或在推薦中始終更風險尋求的AI，影響的不是一個決定，而是數千個。

你不能依賴“氛圍”來理解這些模式，也不能依賴通用基準測試來揭示它們。你需要系統地在AI實際要完成的工作和做出的判斷上測試它。創建反映你用例的現實場景。多次運行以觀察模式，並由專家評估結果。在你關心的任務上直接比較不同模型。這就像知道“這個模型在MMLU上得了85%”與知道“這個模型在我們財務分析任務上更準確，但在風險評估上更保守”之間的區別。而且你每年需要多次這樣做，因為新模型不斷出現並需要評估。

這項工作值得。你不會僅憑SAT成績僱傭副總裁。你不應僅僅因為AI知道直立人的平均顱容量略低於1000立方厘米，就選擇那個將為你組織數千個決策提供建議的AI。