AI News HubLIVE
站內改寫3 分鐘閱讀

利用生成式AI培養面向未來的技能

谷歌研究與紐約大學合作開發了Vantage,這是一個利用生成式AI評估團隊合作和批判性思維等面向未來技能的系統。該系統通過AI化身模擬對話,由執行LLM動態引導,評估結果與人類專家高度一致。目前Vantage已在Google Labs開放註冊。

隨着人工智能以前所未有的速度發展,對“面向未來”技能——即無論技術如何變革或自動化如何發展都仍然有價值的持久人類能力——的關注重新興起。國際框架,如OECD的《2030年學習指南》和WEF的《未來就業報告》,已確定了一套核心技能,包括批判性思維、協作和創造性思維等。這些技能在AI崛起之前早已被視為重要,如今則變得比以往更加關鍵。

今日,谷歌研究團隊發佈了Vantage,一個通過利用生成式AI在模擬環境中創建對話來評估面向未來技能的研究實驗。該實驗與紐約大學的教學專家和研究人員合作開發,旨在為高中生和大學生提供一個練習和驗證評估的沙盒環境,其構建方法與數學或科學等核心學術科目所使用的系統方法相同。Vantage現已在Google Labs開放英文註冊。

測量難以測量的東西

在任何有效的學習過程中,反饋和評估都是核心,不僅對個人成長至關重要,也對教學效果起到促進作用。在全球教育體系中,往往被測量的事項就是被教授的內容。然而,面向未來的技能卻難以測量。傳統測試過於僵化,無法捕捉人們的思維過程和互動,且與現實世界中這些技能的使用方式相去甚遠。雖然通過真實人際互動來測試這些技能是理想的,但這過於耗費資源,且難以標準化和一致評分。

研究團隊的目標是探索如何用可擴展且經過驗證的方法評估學生的面向未來技能,從而賦能教育工作者將課程與這些技能對齊,支持學生成長。

使用AI模擬團隊評估技能

Vantage的實驗設置讓學習者與AI化身進行動態多輪對話,共同完成任務。此設置允許控制評估環境,同時模擬出比現有標準化測試更真實、更具代表性的互動。它提供了一個應對複雜人際和情境挑戰的沙盒。

用户與AI化身在開放式場景中互動時,例如準備辯論或展示創意構想,一個執行LLM利用提供的評估標準引導AI化身進行有效評估。執行LLM持續分析對話狀態,動態引入特定挑戰——如反駁某個想法或引入衝突——為學習者提供展示技能的目標機會。它充當了下一代自適應評估引擎,引導對話以確保在對話結束時已收集到評估所需的信息。

任務完成後,AI評估器對照相同的嚴格評估標準分析對話記錄,識別並測量技能應用的特定證據。學習者隨後收到詳細的技能圖,包括可視化評分和針對其在對話中展示的技能的定性反饋。這使得人類技能發展的“隱形”進步變得可見且可操作。

與合作伙伴驗證評估方法

為確保學術和教學嚴謹性,研究團隊與紐約大學建立了研究合作伙伴關係。雙方共同調查了常見評估標準,並將其與任務對齊。主要合作焦點是建立和驗證評估方法,通過一項聯合研究,對188名18-25歲的美國人進行測試,評估協作技能(衝突解決和項目管理)。研究聚焦兩個關鍵問題:

  1. 能否引導對話以測試特定技能? Vantage的關鍵創新在於使用執行LLM實現自適應評估。評估了LLM引導對話以針對特定技能(如衝突解決或項目管理)的效果。與未受引導的獨立AI化身相比,執行LLM成功引導對話產生高密度信息,且自然流程得以保持。
  1. LLM評估面向未來技能的準確度如何? 將AI評估器的評分與紐約大學評分員使用相同教學標準的結果進行比較。結果顯示,AI評估器與人類專家之間的一致性接近兩位專家之間的一致性,表明AI評估器能提供與人類專家相當的評分。

此外,與OpenMic的合作在創意任務上進一步驗證了AI評估器的能力。分析了180名學生的創意多媒體作品,AI評估器與人類專家的評分高度相關(皮爾遜相關係數0.88)。

展望課堂整合

在學校環境中,這種模擬環境可以為現有課程之上增加一個可測量的“技能層”,並融入學術任務中。例如,學生可以與AI化身辯論社會科學話題,或擔任團隊領導規劃實驗。學生將同時收到對學科內容理解和技能表現(如協作和批判性思維質量)的反饋。此方法將補充現有的學生小組項目,有潛力同時支持學術知識和持久技能的發展。

大規模實現面向未來的準備

這項研究探索瞭如何將重要的面向未來技能從難以測量轉變為可大規模測量,從而實現更具包容性和準確的未來準備度表徵。該實驗是朝着更貼合未來需求的評估方法邁出的一步。研究團隊希望新基礎設施能支持整個生態系統的進一步研究和有效性研究。未來,研究人員將不僅能評估新工具對知識保持的影響,還能直接評估其對技能發展的影響。

展望未來,團隊正在拓展研究以解決可遷移性的關鍵問題——即模擬沙盒中展示的技能如何轉化為現實世界的人際互動。同時,考慮到人類技能的文化依賴性,團隊將專注於在不同環境中探索性能,以確保技術的包容性和公平性。在評估之外,下一階段將邁向技能成長,加深理解並衡量通過模擬環境練習後技能發展的有效性。