AI News HubLIVE
站内改写6 分で読了

陰謀、ラブレター、治療法:AIが明らかにする中世の秘密

人工知能は歴史家が世界中の図書館や文書館で何世紀も解読できなかった暗号化された写本を解読するのを支援している。ボルグ暗号からメアリー女王の手紙まで、AIは復号を加速し、隠された歴史情報を明らかにする可能性がある。

ソースHacker News AI著者: croes

人工知能は歴史家が世界中の図書館や文書館で何世紀も解読できなかった暗号化された写本を解読するのを支援している。ボルグ暗号からメアリー女王の手紙まで、AIは復号を加速し、隠された歴史情報を明らかにする可能性がある。

バチカン図書館の奥深くで、奇妙な記号で書きなぐられた謎の手書きの本が400年以上も読まれずに眠っていた。その暗号のようなページには、表紙に刻まれたテキストによると、「人体の病気のための治療法」が隠されているようだった。当時、そのような治療法は疑いや魔術の告発を招く可能性があったため、秘密にされていた。

「ボルグ暗号」として知られる408ページの写本は、ほとんど理解不能で、34の曖昧な記号と少数のローマ字、そしてアラビア語で書かれた表紙1ページを使用していた。何が暗号化されているかを明らかにする既知の鍵はなかった。また、一部のページは経年劣化で損傷しており、暗号の解読はさらに困難になっていた。

しかし、機械学習(人工知能の一種)の助けを借りて、研究者は暗号を解読することができた。彼らはテキストが何千もの奇妙な治療法で満たされていることを発見した。例えば、高品質の赤ワインを数杯飲んだり、ナツメグを生地で発酵させて赤痢と戦うといったものだ。

「これは探偵作業のようなもので、すべての記号、パターン、部分的な解決策が誰かの秘密や失われた歴史世界に近づけるかもしれない」と、スウェーデンのストックホルム大学の計算言語学教授ベアタ・メジェシは言う。彼女はテキストを解読したチームの一員だった。AIの助けがあっても、暗号鍵を解くプロセスは骨の折れるものだった。

現在、メジェシと彼女の同僚は、AIの力を活用して歴史的な暗号をより効率的に解読する取り組みを主導しており、これまで解読不可能だった過去の暗号化された情報の宝庫を解き放つ可能性がある。

推定によると、世界中の文書館や図書館の資料の約1%が完全または部分的に暗号化されている。最も古い既知の暗号のいくつかは古代ギリシャやローマにまで遡る。

歴史的な暗号は比較的単純な場合がある。例えば、ボルグ暗号は単純な換字式暗号を使用しており、各記号が単一のローマ字と交換されて書かれた内容を隠していた。しかし、他の暗号は解読が難しい場合がある。場合によっては、暗号化されていないテキストの元の言語がまったく不明である。また、無意味な記号が囮として挿入されたり、複数の記号が同じ文字を表すこともある。

これは、たとえ少量のテキストでも解読するのに膨大な作業(しばしば試行錯誤)を意味する。フランス国立情報学自動制御研究所の暗号学者セシル・ピエロと彼女の同僚は、神聖ローマ皇帝兼スペイン王カール5世の500年前の手紙の鍵を徐々に解き明かすのに6ヶ月を費やした。その手紙は3ページにわたって120の異なる暗号記号を使用して書かれていた。

解読が始まる前に、研究者はまず手書きの暗号を慎重にデジタル文書に変換し、解読ソフトウェアに入力しなければならない。悪筆やインクの褪色がこの作業をさらに困難にする。

しかし、AIはプロセスを加速し始めている。ノルウェーのオスロ大学のドイツ言語学教授ミシェル・ヴァルディスピュールと彼女の同僚は最近、Transkribusと呼ばれるオンラインAIプラットフォームを使用して、貴族ジギスムント・ホイスナー・フォン・ヴァンダースレーベンが1637年に三十年戦争の最中にスウェーデン大宰相アクセル・オクセンシェルナに宛てた秘密の手紙を転写した。

このツールは、数世紀にわたるさまざまな言語、書体、手書きスタイルで訓練されている。文書の画像がシステムにアップロードされると、AIがテキストのブロックと個々の行を検出し、テキスト全体を文字ごとにスキャンしてデジタル形式に変換する。

手動での修正が必要だったが、このツールはフォン・ヴァンダースレーベンの手紙にはかなりうまく機能した。なぜなら、それはドットで区切られた数字を使用して部分的に暗号化されており、きれいに書かれ、明確な間隔があったからだ。他の部分は暗号化されておらず、単に17世紀のドイツ文字で書かれていた。

既存のAI転写プラットフォームは、写本が珍しい文字(例えば、発明された記号、占星術記号、または奇妙な方法で書かれた数字)で暗号化されている場合、しばしば苦戦する。しかし、メジェシ、ヴァルディスピュールと彼らの同僚は、多国間Descryptプロジェクトの一環として、曖昧な記号や書体を持つ手書きの歴史文書を機械可読文書に変換する独自のAIツールを開発している。

「私たちは、幅広い書体、アルファベット、記号レパートリーにわたって訓練されテストされた、より適応性の高いモデルを開発しています」とメジェシは言う。

秘密文書が転写されると、探偵作業が始まる。現在、暗号学者はしばしば特別に設計された非AIのコンピュータソフトウェアを使用して、どの暗号が使用されたかを判断し、コードを破る。単純な暗号は、使用される記号の頻度を分析し、言語で同じ割合で出現するアルファベットの文字と照合することで破解できることが多い。例えば、英語では文字Eが最も一般的で、Z、Q、Xが最も頻度が低い。

しかし、三十年戦争の前線からのフォン・ヴァンダースレーベンの手紙では、彼は文字Eを表すために最大8つの異なる記号を使用していた。そのため、試行錯誤とヴァルディスピュールの古ドイツ語の知識が必要で、徐々に暗号を解き明かしていった。

「機械と人間の検証者の間で非常に多くのやりとりがありました」とヴァルディスピュールは言う。「いつかはAIが完全に独立してできるようになるかもしれません。」

暗号の背後には、戦争におけるスウェーデンのプロテスタント同盟派閥がもたらす脅威に関するフォン・ヴァンダースレーベンの警告があった。彼はオクセンシェルナに、ザクセン卿フランツ・ハインリヒを含む同盟者間の陰謀を知らされた後、紛争から戦略的に撤退せざるを得なかったと伝えた。

メジェシと彼女のチームは現在、AIが転写段階を完全にスキップし、ページの写真を分析するだけで秘密のメッセージを解読する方法を模索している。彼らは最近、すべての文字が単一の記号で置き換えられた単純な暗号に対してこのアプローチが機能することを示した。

彼らは、すでに解読済みの105ページの写本(コピアーレ暗号として知られる)でシステムをテストした。この写本は18世紀のドイツ秘密結社の儀式、規則、理想を詳述している。AIを一般的な手書き文字で訓練し、続いて暗号の特定の行の画像と対応する解読されたドイツ語テキストを入力することで、システムは以前に見たことのないテキストの一部を正確に解読することができた。

このようなシステムは、暗号の基になる言語が不明な場合に特に有用である。

「これは珍しい非標準的な書記体系に刺激的な可能性を開きます」とメジェシは言う。「最終的な目標は、転写と解読を一つのステップで組み合わせることです。」

ヴァルディスピュールとDescryptプロジェクトの同僚は、暗号スクリプトをデータベースにまとめるため、古い文書館をくまなく探している。これは、暗号を解読できるAIを訓練するための十分なデータを集めるために重要である。AIチャットボット(ChatGPTなど)を支える大規模言語モデルは、本、記事、ウェブサイトからの数兆語で訓練されている。暗号解読のために同等のデータ量を見つけることは難しい。

彼らが収集した資料の中には、1800年代後半から1900年代初頭にかけて暗号で書かれた400通の謎の葉書がある。これまでに解読されたわずかな断片から、その一部はドイツ語で書かれたラブレターであることが明らかになっている。

メジェシのチームは、彼らの研究を利用して、転写と解読を一つのステップで組み合わせたAIチャットボットスタイルのツールを作成した。このチャットボットは、暗号文字とそれが表すテキストのペアで訓練された解読アルゴリズムと、さまざまな時代の歴史テキストで訓練された大規模言語モデルを組み合わせて、暗号に関する手がかりを提供する。また、注釈付き手書き文字で訓練された画像認識アルゴリズムも組み込まれている。AIツールは、使用する専門家からの修正を取り入れることで自己改善も可能である。

アイデアは、研究者や一般市民が暗号化された歴史テキストをチャットボットに与え、何が書かれているかを明らかにしてもらうというものだ。

研究者がボルグ暗号でAIチャットボットをテストしたとき、メジェシと同僚は、500記号の抜粋を29分強で翻訳および解読できることを発見した。さらに英語訳も提供した。また、プロセスを文書化し、解決策がなぜ妥当かを説明した。これはAIが幻覚を起こしたり、解釈を捏造したりしないことを確認するために重要である。

チームは最近、以前に解読した他の2つの暗号でもシステムをテストした。これらの暗号は異なる時代、言語、秘密コードの種類、複雑さのレベルを表している。それらもすぐに解読し、さまざまな暗号を扱う能力を示した。

「AIは規模、速度、パターン発見、タスク統合の面で最も役立ちます」とメジェシは言う。

このようなAIツールは、これまで謎に包まれていた歴史的な暗号を解読する鍵となる可能性がある。また、今日誰も読めないアルファベットで書かれた古代のテキストの解読にも役立つだろう。例えば、クレタ島の4000年前のフェストスの円盤や、初期ギリシャ語「線文字A」は未だ解読されていない。

「私を興奮させるのは、特定の歴史的なパズルを一つ解く可能性だけでなく、多くの異なるケースにわたって研究者を支援できる方法を生み出す見通しです」とメジェシは言う。