AI News HubLIVE
站内改写2 分钟阅读

仅凭提示中的URL就能引导LLM的输出朝向其内容吗?

本文探讨了在LLM提示中包含URL是否会影响模型输出。实验表明,URL仅在URL及其内容出现在模型训练数据中时才产生效果。许多依赖JavaScript加载内容的网站未被纳入训练数据。描述性URL可作为普通文本影响输出,而著名的不透明标识符(如arXiv ID)若被记忆则可解码。该研究揭示了模型训练数据的模糊性以及SPA对训练数据可及性的影响。

来源Hacker News AI作者: kinlan

最近,Paul Kinlan进行了一项研究,探讨了一个简单但重要的问题:在大型语言模型(LLM)的提示中放入一个URL,是否会导致模型的输出偏向该URL的内容?这项研究的动机源于观察到在代理工具的提示中提及技术名称(如React)似乎会使输出偏向该技术。Kinlan想知道,如果提示中包含URL,是否也能产生类似的效果,从而无需在提示中嵌入大量上下文。

为了回答这个问题,Kinlan构建了一个系统,能够在多个模型中分析一系列URL,并使用LLM作为评判来测试假设。他设计了多种测试类型,包括没有URL的基线、仅使用不透明URL(即无法从URL字符串推断内容)、以及将实际内容粘贴到提示中等。他特别关注了不透明URL,例如来自chromestatus.com的URL,这些URL虽然指示了与Web相关,但无法从数字ID中推断出具体功能。

研究结果揭示了一个复杂的图景。首先,仅凭不透明URL几乎不会影响模型输出。例如,ChromeStatus的功能ID平均召回率仅为6%,其中许多为0%。然而,其他一些URL却能实现高召回率。关键在于,这些URL是否被纳入训练数据。Kinlan发现,许多网站的内容未被纳入模型训练数据,因为它们依赖于JavaScript加载内容。例如,ChromeStatus是一个JavaScript单页应用(SPA),常见的爬虫(如ClaudeBot和GPTBot)虽会抓取页面资源,但不会执行JavaScript,导致只抓取到空壳。相反,像arXiv这样的服务器渲染页面则能很好地被纳入训练数据。

另一个案例是ClinicalTrials.gov。该网站几年前是服务器渲染的,其页面内容被纳入Common Crawl。但在迁移到JavaScript SPA后,Common Crawl抓取到的只有空壳。尽管旧内容可能已嵌入模型权重,但未来发布的新内容将难以被纳入。

研究还发现,描述性URL(如包含单词React、fetch等)会作为普通文本影响输出。此外,一些著名的不透明标识符(如arXiv ID 1706.03762)由于其标识符和内容频繁同时出现在训练数据中,被模型记忆,因此能从裸标识符解码出内容。这种解码能力随着内容的知名度呈梯度下降。GitHub提交的SHA值也类似:著名的早期提交(如Linux、Git、Bitcoin的首次提交)能被解码,而普通提交则不能。

总之,URL在提示中的作用并非魔法般的上下文注入,而是取决于该URL及其内容是否出现在模型的训练数据中。这一发现对依赖JavaScript的网站(如SPA)敲响了警钟,因为它们的内容很可能从未被纳入训练数据。同时,它也呼吁LLM提供商在训练数据来源上更加透明。