2026-07-04 04:23 UTC+8站内改写2 分钟阅读更新: 2026-07-04 04:38 UTC+8

仅凭提示中的URL就能引导LLM的输出朝向其内容吗？

本文探讨了在LLM提示中包含URL是否会影响模型输出。实验表明，URL仅在URL及其内容出现在模型训练数据中时才产生效果。许多依赖JavaScript加载内容的网站未被纳入训练数据。描述性URL可作为普通文本影响输出，而著名的不透明标识符（如arXiv ID）若被记忆则可解码。该研究揭示了模型训练数据的模糊性以及SPA对训练数据可及性的影响。

来源Hacker News AI作者: kinlan

最近，Paul Kinlan进行了一项研究，探讨了一个简单但重要的问题：在大型语言模型（LLM）的提示中放入一个URL，是否会导致模型的输出偏向该URL的内容？这项研究的动机源于观察到在代理工具的提示中提及技术名称（如React）似乎会使输出偏向该技术。Kinlan想知道，如果提示中包含URL，是否也能产生类似的效果，从而无需在提示中嵌入大量上下文。

为了回答这个问题，Kinlan构建了一个系统，能够在多个模型中分析一系列URL，并使用LLM作为评判来测试假设。他设计了多种测试类型，包括没有URL的基线、仅使用不透明URL（即无法从URL字符串推断内容）、以及将实际内容粘贴到提示中等。他特别关注了不透明URL，例如来自chromestatus.com的URL，这些URL虽然指示了与Web相关，但无法从数字ID中推断出具体功能。

研究结果揭示了一个复杂的图景。首先，仅凭不透明URL几乎不会影响模型输出。例如，ChromeStatus的功能ID平均召回率仅为6%，其中许多为0%。然而，其他一些URL却能实现高召回率。关键在于，这些URL是否被纳入训练数据。Kinlan发现，许多网站的内容未被纳入模型训练数据，因为它们依赖于JavaScript加载内容。例如，ChromeStatus是一个JavaScript单页应用（SPA），常见的爬虫（如ClaudeBot和GPTBot）虽会抓取页面资源，但不会执行JavaScript，导致只抓取到空壳。相反，像arXiv这样的服务器渲染页面则能很好地被纳入训练数据。

另一个案例是ClinicalTrials.gov。该网站几年前是服务器渲染的，其页面内容被纳入Common Crawl。但在迁移到JavaScript SPA后，Common Crawl抓取到的只有空壳。尽管旧内容可能已嵌入模型权重，但未来发布的新内容将难以被纳入。

研究还发现，描述性URL（如包含单词React、fetch等）会作为普通文本影响输出。此外，一些著名的不透明标识符（如arXiv ID 1706.03762）由于其标识符和内容频繁同时出现在训练数据中，被模型记忆，因此能从裸标识符解码出内容。这种解码能力随着内容的知名度呈梯度下降。GitHub提交的SHA值也类似：著名的早期提交（如Linux、Git、Bitcoin的首次提交）能被解码，而普通提交则不能。

总之，URL在提示中的作用并非魔法般的上下文注入，而是取决于该URL及其内容是否出现在模型的训练数据中。这一发现对依赖JavaScript的网站（如SPA）敲响了警钟，因为它们的内容很可能从未被纳入训练数据。同时，它也呼吁LLM提供商在训练数据来源上更加透明。