AI News HubLIVE
站內改寫2 分鐘閱讀

僅憑提示中的URL就能引導LLM的輸出朝向其內容嗎?

本文探討了在LLM提示中包含URL是否會影響模型輸出。實驗表明,URL僅在URL及其內容出現在模型訓練數據中時才產生效果。許多依賴JavaScript加載內容的網站未被納入訓練數據。描述性URL可作為普通文本影響輸出,而著名的不透明標識符(如arXiv ID)若被記憶則可解碼。該研究揭示了模型訓練數據的模糊性以及SPA對訓練數據可及性的影響。

來源Hacker News AI作者: kinlan

最近,Paul Kinlan進行了一項研究,探討了一個簡單但重要的問題:在大型語言模型(LLM)的提示中放入一個URL,是否會導致模型的輸出偏向該URL的內容?這項研究的動機源於觀察到在代理工具的提示中提及技術名稱(如React)似乎會使輸出偏向該技術。Kinlan想知道,如果提示中包含URL,是否也能產生類似的效果,從而無需在提示中嵌入大量上下文。

為了回答這個問題,Kinlan構建了一個系統,能夠在多個模型中分析一系列URL,並使用LLM作為評判來測試假設。他設計了多種測試類型,包括沒有URL的基線、僅使用不透明URL(即無法從URL字符串推斷內容)、以及將實際內容粘貼到提示中等。他特別關注了不透明URL,例如來自chromestatus.com的URL,這些URL雖然指示了與Web相關,但無法從數字ID中推斷出具體功能。

研究結果揭示了一個複雜的圖景。首先,僅憑不透明URL幾乎不會影響模型輸出。例如,ChromeStatus的功能ID平均召回率僅為6%,其中許多為0%。然而,其他一些URL卻能實現高召回率。關鍵在於,這些URL是否被納入訓練數據。Kinlan發現,許多網站的內容未被納入模型訓練數據,因為它們依賴於JavaScript加載內容。例如,ChromeStatus是一個JavaScript單頁應用(SPA),常見的爬蟲(如ClaudeBot和GPTBot)雖會抓取頁面資源,但不會執行JavaScript,導致只抓取到空殼。相反,像arXiv這樣的服務器渲染頁面則能很好地被納入訓練數據。

另一個案例是ClinicalTrials.gov。該網站幾年前是服務器渲染的,其頁面內容被納入Common Crawl。但在遷移到JavaScript SPA後,Common Crawl抓取到的只有空殼。儘管舊內容可能已嵌入模型權重,但未來發布的新內容將難以被納入。

研究還發現,描述性URL(如包含單詞React、fetch等)會作為普通文本影響輸出。此外,一些著名的不透明標識符(如arXiv ID 1706.03762)由於其標識符和內容頻繁同時出現在訓練數據中,被模型記憶,因此能從裸標識符解碼出內容。這種解碼能力隨着內容的知名度呈梯度下降。GitHub提交的SHA值也類似:著名的早期提交(如Linux、Git、Bitcoin的首次提交)能被解碼,而普通提交則不能。

總之,URL在提示中的作用並非魔法般的上下文注入,而是取決於該URL及其內容是否出現在模型的訓練數據中。這一發現對依賴JavaScript的網站(如SPA)敲響了警鐘,因為它們的內容很可能從未被納入訓練數據。同時,它也呼籲LLM提供商在訓練數據來源上更加透明。