AI揭示中世紀秘密:密謀、情書與藥方
人工智能正在幫助歷史學家破解圖書館和檔案館中數百年來無法解讀的加密手稿。從博格密碼到瑪麗女王的信件,AI加快了破譯過程,有可能揭示過去隱藏的豐富信息。
人工智能正在幫助歷史學家破解圖書館和檔案館中數百年來無法解讀的加密手稿。從博格密碼到瑪麗女王的信件,AI加快了破譯過程,有可能揭示過去隱藏的豐富信息。
在梵蒂岡圖書館的深處,一本神秘的手寫書,上面塗寫着奇怪的符號,已經超過400年無人能讀。它的加密頁面似乎隱藏着“人體疾病療法”的秘密,根據封面內刻的文字。這種療法在當時被保密,因為可能招致懷疑甚至被指控巫術。
這本被稱為“博格密碼”的手稿長達408頁,大部分內容無法理解——使用了34個晦澀的符號,夾雜少數羅馬字母和一張阿拉伯語封面。沒有已知的密鑰可以揭示加密內容。由於年代久遠,部分頁面損壞,使得破譯更加困難。
但在機器學習(一種人工智能)的幫助下,研究人員得以解開密碼。他們發現文本中充滿了數千種奇特療法,例如喝幾杯優質紅酒或用麪糰發酵豆蔻來治療痢疾。
“這就像偵探工作,每個符號、模式和部分解可能讓我們更接近某個人的秘密和一個失落的歷史世界,”斯德哥爾摩大學計算語言學教授貝塔·梅傑西説,她是解碼團隊的一員。即使有AI的幫助,解開密鑰的過程也十分艱辛。
現在,梅傑西和她的同事正在領導利用AI更高效地破解歷史密碼的努力,有可能揭開過去大量無法破譯的加密信息。
據估計,世界各地檔案館和圖書館中約1%的材料是完全或部分加密的。一些最早的密碼可以追溯到古希臘和羅馬。
歷史密碼可能相對簡單:例如博格密碼使用簡單的替換密碼,即每個符號替換為一個羅馬字母。然而,其他密碼可能難以解開。在某些情況下,未編碼文本的原始語言完全未知。還可能插入無意義的符號作為誘餌,或者用多個符號代表同一個字母。
這可能意味着巨大的工作量——通常需要反覆試驗——即使是一小段文本的解碼。以法國國家計算機科學研究所的塞西爾·皮埃羅為例,她和同事花了六個月才逐漸解開一封500年前來自神聖羅馬帝國皇帝兼西班牙國王查理五世的信件的密鑰,該信使用了120個不同密碼符號,共三頁。
在破譯開始之前,研究人員必須首先將手寫密碼轉化為數字文檔,輸入到破解軟件中。糟糕的書寫和墨水褪色使得這項任務更加困難。
但人工智能正在加速這一過程。挪威奧斯陸大學的米歇爾·瓦爾迪斯普爾和她的同事最近使用名為Transkribus的在線AI平台轉錄了一封貴族西吉斯蒙德·霍伊斯納·馮·萬德斯萊本在1637年三十年戰爭高潮時寫給瑞典大首相阿克塞爾·奧克森謝納的秘密信件。
該工具經過多種語言、字體和書寫風格的訓練,覆蓋了幾個世紀。上傳文檔圖像後,AI檢測文本塊和行,然後逐字符掃描整個文本,將其轉化為數字形式。
儘管需要一些手動校正,但該工具對馮·萬德斯萊本的信件運行良好,因為它僅部分加密,使用了用點分隔的數字,書寫工整,間隔清晰。其他部分未加密,僅用17世紀德語字體書寫。
現有的AI轉錄平台在處理使用不尋常字符(如創造符號、占星符號或異常數字)的手稿時常常遇到困難。但梅傑西、瓦爾迪斯普爾和他們的同事正在開發自己的AI工具,用於將帶有晦澀符號或字體的手寫歷史文本轉化為機器可讀文檔,這是多國Descrypt項目的一部分。
“我們正在開發更靈活的模型,在各種字體、字母表和符號庫上進行訓練和測試,”梅傑西説。
一旦秘密文檔被轉錄,偵探工作就可以開始。目前,密碼學家通常使用專門設計的非AI計算機軟件,利用算法嘗試確定使用了什麼密碼並破解代碼。簡單的密碼通常可以通過分析符號使用頻率並將其與語言中相同頻率的字母匹配來破解。例如,在英語中,字母E最常見,而Z、Q和X最不常見。
但在馮·萬德斯萊本的信件中,他用了多達八個不同符號代表字母E。這意味着需要反覆試驗以及瓦爾迪斯普爾對古德語的知識來逐漸解開密碼。
“機器和人類驗證者之間進行了大量的來回交流,”瓦爾迪斯普爾説。“也許某個時候AI可以完全獨立完成。”
密碼背後隱藏着馮·萬德斯萊本對瑞典新教盟友派系在戰爭中構成威脅的警告。他告訴奧克森謝納,在得知盟友(包括薩克森勳爵弗朗茨·海因裏希)中存在陰謀後,他被迫在衝突中進行戰略撤退。
梅傑西和她的團隊正在探索如何讓AI完全跳過轉錄階段,僅通過分析頁面照片來破譯秘密信息。他們最近展示了這種方法對簡單密碼的有效性,其中每個字母被單個符號替換。
他們在一個已解碼的105頁手稿(稱為“科皮亞勒密碼”)上測試了系統,該手稿詳述了18世紀德國秘密社團的儀式、規則和理想。通過訓練AI處理通用手寫,然後輸入密碼中特定行的圖像以及對應的解碼德語文本,系統能夠準確解碼它未見過的部分文本。
這種系統在密碼的底層語言未知時尤其有用。
“這為罕見和非標準的書寫系統開闢了激動人心的可能性,”梅傑西説。“最終目標是將轉錄和破譯結合在一個步驟中。”
瓦爾迪斯普爾和她在Descrypt項目的同事一直在搜尋舊檔案館,尋找密碼腳本以建立數據庫。這對於收集足夠的數據來訓練能夠破解代碼的AI至關重要。支持AI聊天機器人(如ChatGPT)的大型語言模型是在數萬億詞彙的書籍、文章和網站上訓練的。找到同等數量的破譯數據是一個挑戰。
他們收集的材料包括400張19世紀末到20世紀初用密碼寫的神秘明信片。已解碼的少數片段顯示其中一些是用德語寫的情書。
梅傑西的團隊利用他們的工作創建了一個AI聊天機器人工具,結合了轉錄和解密步驟。該聊天機器人將用於解密的算法與訓練在不同時期歷史文本上的大型語言模型相結合,以幫助提供關於密碼的線索。還加入了基於註釋手寫訓練的Image recognition算法。AI工具還將通過整合使用它的專家提供的修正來改進自身。
思路是,研究人員甚至公眾可以給聊天機器人一段加密的歷史文本,讓它揭示所寫內容。當研究人員用博格密碼測試AI聊天機器人時,梅傑西和同事發現它能在約29分鐘內翻譯和解碼500個符號的片段。它甚至提供了英文翻譯。它還記錄了過程並解釋瞭解決方案為何合理。這對於確保AI不產生幻覺或捏造解釋很重要。
團隊最近還用另外兩個先前解碼的密碼測試了系統,這些密碼代表不同的時期、語言、秘密代碼類型和複雜程度。它也快速解密了它們,表明它能夠處理一系列密碼。
“AI在規模、速度、模式發現和任務整合方面最有幫助,”梅傑西説。
這樣的AI工具可能是破解至今難以捉摸的歷史密碼的關鍵。它們還將有助於解讀今天無人能讀的古老文字。例如,來自克里特島的4000年曆史的費斯托斯圓盤至今未被破譯,早期的希臘語言“線性文字A”也是如此。
“讓我興奮的不僅是解決一個特定歷史謎題的可能性,而是創造能夠幫助研究人員處理許多不同案例的方法的前景,”梅傑西説。