2026-07-01 12:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-07-01 16:07 UTC+8

使用AI代理自動化大規模黑盒審計個性化演算法

本文提出一種利用生成式AI代理作為行為引擎的框架，用於黑盒審計個性化演算法。透過在2024年美國大選後對X平臺部署1120個代理的案例研究，發現演算法推送相比時間線推送放大了有毒、極化、政治化和右傾內容，且放大程度因使用者意識形態而異。反事實分析顯示，人口統計訊號對內容推送的影響依賴於使用者角色。

來源arXiv Computational Linguistics作者: Alessandro Morosini, Sarah H. Cen, Andrew Ilyas, Hedi Driss, Aleksander M\k{a}dry, Chara Podimata

個性化演算法在當今社交媒體平臺中扮演著核心角色，它決定了使用者能夠看到哪些內容。然而，對這些演算法進行審計是一項極具挑戰性的任務。獨立審計人員通常只有黑盒訪問許可權，即無法瞭解演算法的內部執行機制，而個性化過程又高度依賴使用者的屬性、行為以及不斷變化的互動歷史。現有的審計方法面臨著真實性與可擴充套件性之間的根本矛盾：使用真實使用者的研究能夠捕捉到真實的行為模式，但成本高昂且難以控制變數；而使用所謂“傀儡賬號”（sock puppet）的審計方法雖然更容易大規模部署，但其依賴指令碼化行為，缺乏真實性。此外，這兩種方法都難以將使用者屬性與使用者行為的影響分離開來，限制了我們從因果關係上理解個性化演算法的能力。

為了克服這些侷限性，研究人員提出了一種創新的框架：利用生成式AI代理作為合成賬戶的行為引擎。每個代理被賦予一個固定的“角色”（persona），該角色基於真實的人口統計和政治調查資料構建。代理會透過推理來選擇行動，與平臺內容進行互動。關鍵在於，在每個角色內部，代理的行為是固定的，而平臺可見的訊號——例如年齡、性別、地理位置等——則可以實驗性地進行擾動。這種設計使得研究人員能夠進行反事實審計，即探究平臺對不同使用者屬性訊號的響應差異。

為了驗證這一框架的有效性，研究團隊在2024年美國總統大選後不久，在X平臺（原Twitter）上部署了1120個AI代理。這些代理覆蓋了14種不同的角色，並設定了三種反事實條件，最終收集了超過20萬次的內容曝光資料。結果令人深思：與時間線（chronological feed）相比，X的演算法推送（algorithmic feed）顯著放大了有毒、極化、政治化和右傾的內容，而且這種放大效應隨著使用者意識形態的不同而劇烈變化。進一步的反事實分析表明，人口統計訊號對內容推送的影響依賴於具體的角色：從總體來看，合併效應大多為零，但在子群體層面上，效果的方向和幅度各不相同。

這項研究確立了基於生成式AI的代理作為演算法審計的一種新型工具，為深入理解平臺個性化機制提供了更強大的手段。它揭示了演算法推送可能如何加劇資訊繭房和極化現象，對於政策制定者、平臺運營者和研究者都具有重要意義。