2026-07-01 12:00 UTC+8站内改写2 分钟阅读更新: 2026-07-01 16:07 UTC+8

使用AI代理自动化大规模黑盒审计个性化算法

本文提出一种利用生成式AI代理作为行为引擎的框架，用于黑盒审计个性化算法。通过在2024年美国大选后对X平台部署1120个代理的案例研究，发现算法推送相比时间线推送放大了有毒、极化、政治化和右倾内容，且放大程度因用户意识形态而异。反事实分析显示，人口统计信号对内容推送的影响依赖于用户角色。

来源arXiv Computational Linguistics作者: Alessandro Morosini, Sarah H. Cen, Andrew Ilyas, Hedi Driss, Aleksander M\k{a}dry, Chara Podimata

个性化算法在当今社交媒体平台中扮演着核心角色，它决定了用户能够看到哪些内容。然而，对这些算法进行审计是一项极具挑战性的任务。独立审计人员通常只有黑盒访问权限，即无法了解算法的内部运行机制，而个性化过程又高度依赖用户的属性、行为以及不断变化的交互历史。现有的审计方法面临着真实性与可扩展性之间的根本矛盾：使用真实用户的研究能够捕捉到真实的行为模式，但成本高昂且难以控制变量；而使用所谓“傀儡账号”（sock puppet）的审计方法虽然更容易大规模部署，但其依赖脚本化行为，缺乏真实性。此外，这两种方法都难以将用户属性与用户行为的影响分离开来，限制了我们从因果关系上理解个性化算法的能力。

为了克服这些局限性，研究人员提出了一种创新的框架：利用生成式AI代理作为合成账户的行为引擎。每个代理被赋予一个固定的“角色”（persona），该角色基于真实的人口统计和政治调查数据构建。代理会通过推理来选择行动，与平台内容进行交互。关键在于，在每个角色内部，代理的行为是固定的，而平台可见的信号——例如年龄、性别、地理位置等——则可以实验性地进行扰动。这种设计使得研究人员能够进行反事实审计，即探究平台对不同用户属性信号的响应差异。

为了验证这一框架的有效性，研究团队在2024年美国总统大选后不久，在X平台（原Twitter）上部署了1120个AI代理。这些代理覆盖了14种不同的角色，并设置了三种反事实条件，最终收集了超过20万次的内容曝光数据。结果令人深思：与时间线（chronological feed）相比，X的算法推送（algorithmic feed）显著放大了有毒、极化、政治化和右倾的内容，而且这种放大效应随着用户意识形态的不同而剧烈变化。进一步的反事实分析表明，人口统计信号对内容推送的影响依赖于具体的角色：从总体来看，合并效应大多为零，但在子群体层面上，效果的方向和幅度各不相同。

这项研究确立了基于生成式AI的代理作为算法审计的一种新型工具，为深入理解平台个性化机制提供了更强大的手段。它揭示了算法推送可能如何加剧信息茧房和极化现象，对于政策制定者、平台运营者和研究者都具有重要意义。