2026-07-01 12:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-07-01 16:07 UTC+8

使用AI代理自動化大規模黑盒審計個性化算法

本文提出一種利用生成式AI代理作為行為引擎的框架，用於黑盒審計個性化算法。通過在2024年美國大選後對X平台部署1120個代理的案例研究，發現算法推送相比時間線推送放大了有毒、極化、政治化和右傾內容，且放大程度因用户意識形態而異。反事實分析顯示，人口統計信號對內容推送的影響依賴於用户角色。

來源arXiv Computational Linguistics作者: Alessandro Morosini, Sarah H. Cen, Andrew Ilyas, Hedi Driss, Aleksander M\k{a}dry, Chara Podimata

個性化算法在當今社交媒體平台中扮演着核心角色，它決定了用户能夠看到哪些內容。然而，對這些算法進行審計是一項極具挑戰性的任務。獨立審計人員通常只有黑盒訪問權限，即無法瞭解算法的內部運行機制，而個性化過程又高度依賴用户的屬性、行為以及不斷變化的交互歷史。現有的審計方法面臨着真實性與可擴展性之間的根本矛盾：使用真實用户的研究能夠捕捉到真實的行為模式，但成本高昂且難以控制變量；而使用所謂“傀儡賬號”（sock puppet）的審計方法雖然更容易大規模部署，但其依賴腳本化行為，缺乏真實性。此外，這兩種方法都難以將用户屬性與用户行為的影響分離開來，限制了我們從因果關係上理解個性化算法的能力。

為了克服這些侷限性，研究人員提出了一種創新的框架：利用生成式AI代理作為合成賬户的行為引擎。每個代理被賦予一個固定的“角色”（persona），該角色基於真實的人口統計和政治調查數據構建。代理會通過推理來選擇行動，與平台內容進行交互。關鍵在於，在每個角色內部，代理的行為是固定的，而平台可見的信號——例如年齡、性別、地理位置等——則可以實驗性地進行擾動。這種設計使得研究人員能夠進行反事實審計，即探究平台對不同用户屬性信號的響應差異。

為了驗證這一框架的有效性，研究團隊在2024年美國總統大選後不久，在X平台（原Twitter）上部署了1120個AI代理。這些代理覆蓋了14種不同的角色，並設置了三種反事實條件，最終收集了超過20萬次的內容曝光數據。結果令人深思：與時間線（chronological feed）相比，X的算法推送（algorithmic feed）顯著放大了有毒、極化、政治化和右傾的內容，而且這種放大效應隨着用户意識形態的不同而劇烈變化。進一步的反事實分析表明，人口統計信號對內容推送的影響依賴於具體的角色：從總體來看，合併效應大多為零，但在子羣體層面上，效果的方向和幅度各不相同。

這項研究確立了基於生成式AI的代理作為算法審計的一種新型工具，為深入理解平台個性化機制提供了更強大的手段。它揭示了算法推送可能如何加劇信息繭房和極化現象，對於政策制定者、平台運營者和研究者都具有重要意義。