2026-07-04 04:23 UTC+8站內改寫2 分鐘閱讀更新: 2026-07-04 04:38 UTC+8

僅憑提示中的URL就能引導LLM的輸出朝向其內容嗎？

本文探討了在LLM提示中包含URL是否會影響模型輸出。實驗表明，URL僅在URL及其內容出現在模型訓練數據中時才產生效果。許多依賴JavaScript加載內容的網站未被納入訓練數據。描述性URL可作為普通文本影響輸出，而著名的不透明標識符（如arXiv ID）若被記憶則可解碼。該研究揭示了模型訓練數據的模糊性以及SPA對訓練數據可及性的影響。

來源Hacker News AI作者: kinlan

最近，Paul Kinlan進行了一項研究，探討了一個簡單但重要的問題：在大型語言模型（LLM）的提示中放入一個URL，是否會導致模型的輸出偏向該URL的內容？這項研究的動機源於觀察到在代理工具的提示中提及技術名稱（如React）似乎會使輸出偏向該技術。Kinlan想知道，如果提示中包含URL，是否也能產生類似的效果，從而無需在提示中嵌入大量上下文。

為了回答這個問題，Kinlan構建了一個系統，能夠在多個模型中分析一系列URL，並使用LLM作為評判來測試假設。他設計了多種測試類型，包括沒有URL的基線、僅使用不透明URL（即無法從URL字符串推斷內容）、以及將實際內容粘貼到提示中等。他特別關注了不透明URL，例如來自chromestatus.com的URL，這些URL雖然指示了與Web相關，但無法從數字ID中推斷出具體功能。

研究結果揭示了一個複雜的圖景。首先，僅憑不透明URL幾乎不會影響模型輸出。例如，ChromeStatus的功能ID平均召回率僅為6%，其中許多為0%。然而，其他一些URL卻能實現高召回率。關鍵在於，這些URL是否被納入訓練數據。Kinlan發現，許多網站的內容未被納入模型訓練數據，因為它們依賴於JavaScript加載內容。例如，ChromeStatus是一個JavaScript單頁應用（SPA），常見的爬蟲（如ClaudeBot和GPTBot）雖會抓取頁面資源，但不會執行JavaScript，導致只抓取到空殼。相反，像arXiv這樣的服務器渲染頁面則能很好地被納入訓練數據。

另一個案例是ClinicalTrials.gov。該網站幾年前是服務器渲染的，其頁面內容被納入Common Crawl。但在遷移到JavaScript SPA後，Common Crawl抓取到的只有空殼。儘管舊內容可能已嵌入模型權重，但未來發布的新內容將難以被納入。

研究還發現，描述性URL（如包含單詞React、fetch等）會作為普通文本影響輸出。此外，一些著名的不透明標識符（如arXiv ID 1706.03762）由於其標識符和內容頻繁同時出現在訓練數據中，被模型記憶，因此能從裸標識符解碼出內容。這種解碼能力隨着內容的知名度呈梯度下降。GitHub提交的SHA值也類似：著名的早期提交（如Linux、Git、Bitcoin的首次提交）能被解碼，而普通提交則不能。

總之，URL在提示中的作用並非魔法般的上下文注入，而是取決於該URL及其內容是否出現在模型的訓練數據中。這一發現對依賴JavaScript的網站（如SPA）敲響了警鐘，因為它們的內容很可能從未被納入訓練數據。同時，它也呼籲LLM提供商在訓練數據來源上更加透明。