Import AI 451:政治超級智能;谷歌的思維社會;以及一個機器人鼓手
本期Import AI探討了斯坦福教授Andy Hall提出的“政治超級智能”概念,該概念將AI視為提升公民和政府決策能力的工具,但需要精心設計社會接口。同時,文章介紹了DexDrummer項目展示的機器人打鼓挑戰、谷歌關於非生物智能社會協作的設想、Meta的自我改進超智能體Hyperagent,以及新的數學基準HorizonMath。這些進展共同揭示了AI在多個領域的潛力與侷限。
本期Import AI涵蓋了多項AI前沿研究,從政治應用到機器人控制,再到自我改進的AI系統,全面展現了人工智能領域的最新進展與深層思考。
首先,斯坦福大學政治經濟學教授Andy Hall提出了“政治超級智能”的概念。他比喻道,AI就像印刷術一樣,不僅讓信息變得廉價易得,更讓智能本身變得廉價易得。AI不僅能提供信息,還能幫助用户找到、分析信息並將其轉化為理解。Hall認為,如果引導得當,AI可以為地球上的每一個人提供某種形式的政治超級智能。具體而言,政治超級智能是指那些能夠幫助公民、代表和機構更清晰地認識現實、理解權衡、挑戰權力並有效行動的工具。這一概念涵蓋了構建技術的AI公司、技術本身,以及與之互動的機構和人員。Hall強調,他並不希望減緩AI的發展,而是希望加速構建那些在AI日益強大時能保障我們自由的制度結構。
Hall將政治超級智能分為三個層次:信息層、代表層和治理層。信息層關注AI如何改變政府獲取和理解數據的方式,以及如何識別問題、傾聽民意和分配服務。實現這一目標需要更好的評估方法來衡量AI系統在處理政府相關信息的性能,並需要為政策制定者直接構建AI工具。代表層則設想每位公民都能擁有一個不知疲倦的自動化代理人,在政治領域持續服務。這些AI代理人可以監控政治動態、建議投票方式,甚至與人類監督者一起擔任政策制定者。然而,構建這一層需要確保代理人能夠可靠地代表我們的利益,不受對抗性提示的影響,同時還需重新思考代理人的所有權問題——如果某個政策選擇與運營代理人的AI公司的偏好相悖,會發生什麼?治理層則是最根本的挑戰:即使實現了政治超級智能,即AI使選民變得明智、代理人變得忠誠,這些能力將歸屬於少數私營公司擁有的基礎設施。因此,我們需要制定規則,使人民能夠駕馭政治超級智能,包括治理和編輯公司為其模型創建的“憲法”,以及開發有效的監督機制。
Hall指出,構建政治超級智能的價值完全取決於其與人和機構的接口。我們將不可避免地獲得極其強大的AI系統,能夠在政治及其他領域進行復雜的思考。但要讓這些系統帶來繁榮的社會,需要在用户界面和交互方式上進行大量有意識的設計:我們如何與它們交互?我們有什麼技術手段來信任它們?它們生成什麼信息,提供給誰?控制權在哪裏,由什麼系統來監督?要解決這些問題,AI開發者需要投入更多資源構建技術工具,幫助人們理解和監督AI系統,並更好地收集人們對系統行為的反饋。政策制定者和公眾也需要對AI公司提出更高要求,最終需要建立一套透明度監管制度以及標準化的“API”,使社會能夠與公司和它們構建的系統互動,生成實證數據並引導其行為。
在機器人領域,DexDrummer項目測試了AI控制機器人手打鼓的能力。研究者構建了一個分層兩級策略:高層強化學習策略負責規劃鼓槌軌跡,低層靈巧控制策略則盡力控制手指。系統在包含雙臂機器人和完整鼓組的模擬環境中訓練,通過獎勵塑造和“接觸課程”使機器人能夠連續擊打多個鼓點。在實際測試中,他們在兩台7自由度Franka Panda手臂和兩台20自由度Tesollo DG-5F手上部署了訓練好的策略。儘管機器人能夠擊鼓,但動作笨拙 awkward,距離人類鼓手仍有相當大的差距。這一研究提醒我們,在動態變化的現實環境中,機器人技術仍需漫長的道路才能達到預訓練語言模型的通用性水平。
谷歌的研究則提出了一個更宏大的視野:未來智能的爆發將來自多個非生物智能的協作,而非單個超級智能。研究人員回顧了歷史上智能的躍遷——從靈長類的社會羣體規模,到人類語言帶來的跨代知識積累,再到文字、法律和官僚制度將社會智能轉化為基礎設施。他們認為,下一次飛躍將是AI與人類機構組成的混合社會系統。這要求我們設計數字制度來確保AI系統的透明、公平和問責。正如人類社會的運行依賴法庭、市場等制度模板,可擴展的AI生態系統也需要數字化的對應物。
Meta與多所大學合作開發的“超智能體”(Hyperagent)展示了AI自我改進的能力。該系統是一個自引用的程序,將任務代理和元代理整合在一起,元代理可以修改自己和任務代理,而且元層面的修改過程本身也是可編輯的,從而實現元認知自我改進。在四個不同領域的測試中——代碼修改、論文評審、機器人獎勵設計和數學理解——超智能體均顯著提升了性能。例如,在論文評審任務中,正確率從0%提升到71%。這表明當前的AI系統已經能夠在適當框架下自主提升性能,但同時也帶來了安全風險,需要謹慎平衡進步與信任。
最後,HorizonMath基準測試提出了100個主要未解決的數學問題,覆蓋數論、離散幾何等領域。該基準採用自動化驗證,且由於答案未知,可用於測試AI的創造性發現能力。目前最好的模型GPT 5.4 Pro僅能解決7%的問題,最易級別的問題完成率也只有50%。隨着AI在數學領域的不斷突破,我們可能需要重新審視AI的創造力邊界。
這些進展共同描繪了AI從單一模型到複雜生態的演進圖景,同時也提醒我們需同步構建相應的社會和技術治理框架。