AI News HubLIVE
站内改写3 分钟阅读

Import AI 451:政治超级智能;谷歌的思维社会;以及一个机器人鼓手

本期Import AI探讨了斯坦福教授Andy Hall提出的“政治超级智能”概念,该概念将AI视为提升公民和政府决策能力的工具,但需要精心设计社会接口。同时,文章介绍了DexDrummer项目展示的机器人打鼓挑战、谷歌关于非生物智能社会协作的设想、Meta的自我改进超智能体Hyperagent,以及新的数学基准HorizonMath。这些进展共同揭示了AI在多个领域的潜力与局限。

来源Import AI作者: Jack Clark

本期Import AI涵盖了多项AI前沿研究,从政治应用到机器人控制,再到自我改进的AI系统,全面展现了人工智能领域的最新进展与深层思考。

首先,斯坦福大学政治经济学教授Andy Hall提出了“政治超级智能”的概念。他比喻道,AI就像印刷术一样,不仅让信息变得廉价易得,更让智能本身变得廉价易得。AI不仅能提供信息,还能帮助用户找到、分析信息并将其转化为理解。Hall认为,如果引导得当,AI可以为地球上的每一个人提供某种形式的政治超级智能。具体而言,政治超级智能是指那些能够帮助公民、代表和机构更清晰地认识现实、理解权衡、挑战权力并有效行动的工具。这一概念涵盖了构建技术的AI公司、技术本身,以及与之互动的机构和人员。Hall强调,他并不希望减缓AI的发展,而是希望加速构建那些在AI日益强大时能保障我们自由的制度结构。

Hall将政治超级智能分为三个层次:信息层、代表层和治理层。信息层关注AI如何改变政府获取和理解数据的方式,以及如何识别问题、倾听民意和分配服务。实现这一目标需要更好的评估方法来衡量AI系统在处理政府相关信息的性能,并需要为政策制定者直接构建AI工具。代表层则设想每位公民都能拥有一个不知疲倦的自动化代理人,在政治领域持续服务。这些AI代理人可以监控政治动态、建议投票方式,甚至与人类监督者一起担任政策制定者。然而,构建这一层需要确保代理人能够可靠地代表我们的利益,不受对抗性提示的影响,同时还需重新思考代理人的所有权问题——如果某个政策选择与运营代理人的AI公司的偏好相悖,会发生什么?治理层则是最根本的挑战:即使实现了政治超级智能,即AI使选民变得明智、代理人变得忠诚,这些能力将归属于少数私营公司拥有的基础设施。因此,我们需要制定规则,使人民能够驾驭政治超级智能,包括治理和编辑公司为其模型创建的“宪法”,以及开发有效的监督机制。

Hall指出,构建政治超级智能的价值完全取决于其与人和机构的接口。我们将不可避免地获得极其强大的AI系统,能够在政治及其他领域进行复杂的思考。但要让这些系统带来繁荣的社会,需要在用户界面和交互方式上进行大量有意识的设计:我们如何与它们交互?我们有什么技术手段来信任它们?它们生成什么信息,提供给谁?控制权在哪里,由什么系统来监督?要解决这些问题,AI开发者需要投入更多资源构建技术工具,帮助人们理解和监督AI系统,并更好地收集人们对系统行为的反馈。政策制定者和公众也需要对AI公司提出更高要求,最终需要建立一套透明度监管制度以及标准化的“API”,使社会能够与公司和它们构建的系统互动,生成实证数据并引导其行为。

在机器人领域,DexDrummer项目测试了AI控制机器人手打鼓的能力。研究者构建了一个分层两级策略:高层强化学习策略负责规划鼓槌轨迹,低层灵巧控制策略则尽力控制手指。系统在包含双臂机器人和完整鼓组的模拟环境中训练,通过奖励塑造和“接触课程”使机器人能够连续击打多个鼓点。在实际测试中,他们在两台7自由度Franka Panda手臂和两台20自由度Tesollo DG-5F手上部署了训练好的策略。尽管机器人能够击鼓,但动作笨拙 awkward,距离人类鼓手仍有相当大的差距。这一研究提醒我们,在动态变化的现实环境中,机器人技术仍需漫长的道路才能达到预训练语言模型的通用性水平。

谷歌的研究则提出了一个更宏大的视野:未来智能的爆发将来自多个非生物智能的协作,而非单个超级智能。研究人员回顾了历史上智能的跃迁——从灵长类的社会群体规模,到人类语言带来的跨代知识积累,再到文字、法律和官僚制度将社会智能转化为基础设施。他们认为,下一次飞跃将是AI与人类机构组成的混合社会系统。这要求我们设计数字制度来确保AI系统的透明、公平和问责。正如人类社会的运行依赖法庭、市场等制度模板,可扩展的AI生态系统也需要数字化的对应物。

Meta与多所大学合作开发的“超智能体”(Hyperagent)展示了AI自我改进的能力。该系统是一个自引用的程序,将任务代理和元代理整合在一起,元代理可以修改自己和任务代理,而且元层面的修改过程本身也是可编辑的,从而实现元认知自我改进。在四个不同领域的测试中——代码修改、论文评审、机器人奖励设计和数学理解——超智能体均显著提升了性能。例如,在论文评审任务中,正确率从0%提升到71%。这表明当前的AI系统已经能够在适当框架下自主提升性能,但同时也带来了安全风险,需要谨慎平衡进步与信任。

最后,HorizonMath基准测试提出了100个主要未解决的数学问题,覆盖数论、离散几何等领域。该基准采用自动化验证,且由于答案未知,可用于测试AI的创造性发现能力。目前最好的模型GPT 5.4 Pro仅能解决7%的问题,最易级别的问题完成率也只有50%。随着AI在数学领域的不断突破,我们可能需要重新审视AI的创造力边界。

这些进展共同描绘了AI从单一模型到复杂生态的演进图景,同时也提醒我们需同步构建相应的社会和技術治理框架。