AI揭示中世纪秘密:密谋、情书与药方
人工智能正在帮助历史学家破解图书馆和档案馆中数百年来无法解读的加密手稿。从博格密码到玛丽女王的信件,AI加快了破译过程,有可能揭示过去隐藏的丰富信息。
人工智能正在帮助历史学家破解图书馆和档案馆中数百年来无法解读的加密手稿。从博格密码到玛丽女王的信件,AI加快了破译过程,有可能揭示过去隐藏的丰富信息。
在梵蒂冈图书馆的深处,一本神秘的手写书,上面涂写着奇怪的符号,已经超过400年无人能读。它的加密页面似乎隐藏着“人体疾病疗法”的秘密,根据封面内刻的文字。这种疗法在当时被保密,因为可能招致怀疑甚至被指控巫术。
这本被称为“博格密码”的手稿长达408页,大部分内容无法理解——使用了34个晦涩的符号,夹杂少数罗马字母和一张阿拉伯语封面。没有已知的密钥可以揭示加密内容。由于年代久远,部分页面损坏,使得破译更加困难。
但在机器学习(一种人工智能)的帮助下,研究人员得以解开密码。他们发现文本中充满了数千种奇特疗法,例如喝几杯优质红酒或用面团发酵豆蔻来治疗痢疾。
“这就像侦探工作,每个符号、模式和部分解可能让我们更接近某个人的秘密和一个失落的历史世界,”斯德哥尔摩大学计算语言学教授贝塔·梅杰西说,她是解码团队的一员。即使有AI的帮助,解开密钥的过程也十分艰辛。
现在,梅杰西和她的同事正在领导利用AI更高效地破解历史密码的努力,有可能揭开过去大量无法破译的加密信息。
据估计,世界各地档案馆和图书馆中约1%的材料是完全或部分加密的。一些最早的密码可以追溯到古希腊和罗马。
历史密码可能相对简单:例如博格密码使用简单的替换密码,即每个符号替换为一个罗马字母。然而,其他密码可能难以解开。在某些情况下,未编码文本的原始语言完全未知。还可能插入无意义的符号作为诱饵,或者用多个符号代表同一个字母。
这可能意味着巨大的工作量——通常需要反复试验——即使是一小段文本的解码。以法国国家计算机科学研究所的塞西尔·皮埃罗为例,她和同事花了六个月才逐渐解开一封500年前来自神圣罗马帝国皇帝兼西班牙国王查理五世的信件的密钥,该信使用了120个不同密码符号,共三页。
在破译开始之前,研究人员必须首先将手写密码转化为数字文档,输入到破解软件中。糟糕的书写和墨水褪色使得这项任务更加困难。
但人工智能正在加速这一过程。挪威奥斯陆大学的米歇尔·瓦尔迪斯普尔和她的同事最近使用名为Transkribus的在线AI平台转录了一封贵族西吉斯蒙德·霍伊斯纳·冯·万德斯莱本在1637年三十年战争高潮时写给瑞典大首相阿克塞尔·奥克森谢纳的秘密信件。
该工具经过多种语言、字体和书写风格的训练,覆盖了几个世纪。上传文档图像后,AI检测文本块和行,然后逐字符扫描整个文本,将其转化为数字形式。
尽管需要一些手动校正,但该工具对冯·万德斯莱本的信件运行良好,因为它仅部分加密,使用了用点分隔的数字,书写工整,间隔清晰。其他部分未加密,仅用17世纪德语字体书写。
现有的AI转录平台在处理使用不寻常字符(如创造符号、占星符号或异常数字)的手稿时常常遇到困难。但梅杰西、瓦尔迪斯普尔和他们的同事正在开发自己的AI工具,用于将带有晦涩符号或字体的手写历史文本转化为机器可读文档,这是多国Descrypt项目的一部分。
“我们正在开发更灵活的模型,在各种字体、字母表和符号库上进行训练和测试,”梅杰西说。
一旦秘密文档被转录,侦探工作就可以开始。目前,密码学家通常使用专门设计的非AI计算机软件,利用算法尝试确定使用了什么密码并破解代码。简单的密码通常可以通过分析符号使用频率并将其与语言中相同频率的字母匹配来破解。例如,在英语中,字母E最常见,而Z、Q和X最不常见。
但在冯·万德斯莱本的信件中,他用了多达八个不同符号代表字母E。这意味着需要反复试验以及瓦尔迪斯普尔对古德语的知识来逐渐解开密码。
“机器和人类验证者之间进行了大量的来回交流,”瓦尔迪斯普尔说。“也许某个时候AI可以完全独立完成。”
密码背后隐藏着冯·万德斯莱本对瑞典新教盟友派系在战争中构成威胁的警告。他告诉奥克森谢纳,在得知盟友(包括萨克森勋爵弗朗茨·海因里希)中存在阴谋后,他被迫在冲突中进行战略撤退。
梅杰西和她的团队正在探索如何让AI完全跳过转录阶段,仅通过分析页面照片来破译秘密信息。他们最近展示了这种方法对简单密码的有效性,其中每个字母被单个符号替换。
他们在一个已解码的105页手稿(称为“科皮亚勒密码”)上测试了系统,该手稿详述了18世纪德国秘密社团的仪式、规则和理想。通过训练AI处理通用手写,然后输入密码中特定行的图像以及对应的解码德语文本,系统能够准确解码它未见过的部分文本。
这种系统在密码的底层语言未知时尤其有用。
“这为罕见和非标准的书写系统开辟了激动人心的可能性,”梅杰西说。“最终目标是将转录和破译结合在一个步骤中。”
瓦尔迪斯普尔和她在Descrypt项目的同事一直在搜寻旧档案馆,寻找密码脚本以建立数据库。这对于收集足够的数据来训练能够破解代码的AI至关重要。支持AI聊天机器人(如ChatGPT)的大型语言模型是在数万亿词汇的书籍、文章和网站上训练的。找到同等数量的破译数据是一个挑战。
他们收集的材料包括400张19世纪末到20世纪初用密码写的神秘明信片。已解码的少数片段显示其中一些是用德语写的情书。
梅杰西的团队利用他们的工作创建了一个AI聊天机器人工具,结合了转录和解密步骤。该聊天机器人将用于解密的算法与训练在不同时期历史文本上的大型语言模型相结合,以帮助提供关于密码的线索。还加入了基于注释手写训练的Image recognition算法。AI工具还将通过整合使用它的专家提供的修正来改进自身。
思路是,研究人员甚至公众可以给聊天机器人一段加密的历史文本,让它揭示所写内容。当研究人员用博格密码测试AI聊天机器人时,梅杰西和同事发现它能在约29分钟内翻译和解码500个符号的片段。它甚至提供了英文翻译。它还记录了过程并解释了解决方案为何合理。这对于确保AI不产生幻觉或捏造解释很重要。
团队最近还用另外两个先前解码的密码测试了系统,这些密码代表不同的时期、语言、秘密代码类型和复杂程度。它也快速解密了它们,表明它能够处理一系列密码。
“AI在规模、速度、模式发现和任务整合方面最有帮助,”梅杰西说。
这样的AI工具可能是破解至今难以捉摸的历史密码的关键。它们还将有助于解读今天无人能读的古老文字。例如,来自克里特岛的4000年历史的费斯托斯圆盘至今未被破译,早期的希腊语言“线性文字A”也是如此。
“让我兴奋的不仅是解决一个特定历史谜题的可能性,而是创造能够帮助研究人员处理许多不同案例的方法的前景,”梅杰西说。