使用AI代理自動化大規模黑盒審計個性化算法
本文提出一種利用生成式AI代理作為行為引擎的框架,用於黑盒審計個性化算法。通過在2024年美國大選後對X平台部署1120個代理的案例研究,發現算法推送相比時間線推送放大了有毒、極化、政治化和右傾內容,且放大程度因用户意識形態而異。反事實分析顯示,人口統計信號對內容推送的影響依賴於用户角色。
個性化算法在當今社交媒體平台中扮演着核心角色,它決定了用户能夠看到哪些內容。然而,對這些算法進行審計是一項極具挑戰性的任務。獨立審計人員通常只有黑盒訪問權限,即無法瞭解算法的內部運行機制,而個性化過程又高度依賴用户的屬性、行為以及不斷變化的交互歷史。現有的審計方法面臨着真實性與可擴展性之間的根本矛盾:使用真實用户的研究能夠捕捉到真實的行為模式,但成本高昂且難以控制變量;而使用所謂“傀儡賬號”(sock puppet)的審計方法雖然更容易大規模部署,但其依賴腳本化行為,缺乏真實性。此外,這兩種方法都難以將用户屬性與用户行為的影響分離開來,限制了我們從因果關係上理解個性化算法的能力。
為了克服這些侷限性,研究人員提出了一種創新的框架:利用生成式AI代理作為合成賬户的行為引擎。每個代理被賦予一個固定的“角色”(persona),該角色基於真實的人口統計和政治調查數據構建。代理會通過推理來選擇行動,與平台內容進行交互。關鍵在於,在每個角色內部,代理的行為是固定的,而平台可見的信號——例如年齡、性別、地理位置等——則可以實驗性地進行擾動。這種設計使得研究人員能夠進行反事實審計,即探究平台對不同用户屬性信號的響應差異。
為了驗證這一框架的有效性,研究團隊在2024年美國總統大選後不久,在X平台(原Twitter)上部署了1120個AI代理。這些代理覆蓋了14種不同的角色,並設置了三種反事實條件,最終收集了超過20萬次的內容曝光數據。結果令人深思:與時間線(chronological feed)相比,X的算法推送(algorithmic feed)顯著放大了有毒、極化、政治化和右傾的內容,而且這種放大效應隨着用户意識形態的不同而劇烈變化。進一步的反事實分析表明,人口統計信號對內容推送的影響依賴於具體的角色:從總體來看,合併效應大多為零,但在子羣體層面上,效果的方向和幅度各不相同。
這項研究確立了基於生成式AI的代理作為算法審計的一種新型工具,為深入理解平台個性化機制提供了更強大的手段。它揭示了算法推送可能如何加劇信息繭房和極化現象,對於政策制定者、平台運營者和研究者都具有重要意義。