AI News HubLIVE
サイト内リライト5 分で読了

アーキビスト、LLMを活用して手書き文字を大規模解読

汎用大規模言語モデルが歴史的な手書き文書の書き起こしで能力を発揮し、Transkribusなどの専門ツールを精度・速度・コストで上回り、これまでアクセス困難だったアーカイブ資料を検索可能にしている。

ソースIEEE Spectrum AI著者: IEEE Spectrum

ケンタッキー州ベレア大学のアーカイブでベル・フックスの個人日記を手に取ったとき、私は彼女の編集前の内面を垣間見られるだろうと期待していた。しかし現実は苛立たしいものだった。彼女の筆跡はぎっしりとした筆記体で、すべてのループが私の目には同じに見え、何年分もの日記を読み進める必要があった。私はページを写真に撮り、ChatGPTに読み込ませて彼女が書いた内容を解読した。選んだツールはうまく機能し、どうやら私はアーカイブでこの方法を見つけた最初の人間ではなかったようだ。

コンピュータに人間の手書き文字を確実に読ませることは、AI研究の初期から課題となってきた。1960年代、研究者たちは機械がすぐに手書きテキストを簡単に処理できるようになると予測したが、現実はその問題が数十年にわたる専門研究と商業産業全体を生み出した。後に深層学習への貢献でチューリング賞を受賞したヤン・ルカンは、1980年代に手書き数字認識の画期的な研究を発表し、狭く制御された環境での可能性を示した。しかし実際のアーカイブは別の問題だった。

今、その境界線が動いている。汎用AIモデルはすべての手書きページを完璧に読めるわけではないが、アーカイブの可能性を変えるのに十分な能力を突然獲得した。かつて古書体学の訓練やカスタムソフトウェア、数週間の凝視を必要としたページが、数秒で利用可能な書き起こしを生成できるようになった。保存されていながら実質的に隠されていたコレクションが検索可能になり、学者や家族が以前は時間や資金の制約でほとんど尋ねることのできなかった質問をする道が開かれた。

アーカイブ手書き文字解読のためのAIスケーリング

マーク・ハンフリーズはスケールの問題に10年間取り組んできた。オンタリオ州ウォータールーにあるウィルフリッド・ローリエ大学の歴史学教授で応用生成AIプログラムのコーディネーターである彼は、カナダの第一次世界大戦年金記録1000万ページをデジタル化していた。しかし索引も標準化もなく、個々の年金受給者を見つけるにはファイルをランダムに調べるしかなかった。記録は何百人もの異なる事務員、将校、管理者によって書かれており、一人の筆跡を認識するための専門モデルを訓練するという標準的な回避策は使えなかった。

2023年にOpenAIのGPT-4が登場すると、ハンフリーズはそれに手書き文字を入力し始めた。結果は粗かったが、これまで試したどの汎用ツールよりも優れており、彼はこのトリックが通用するかどうかを確かめたかった。ハンフリーズと同僚たちは2年間かけて、これらのモデルが実際に何ができるかを体系的にテストした。2025年5月に『Historical Methods』に発表された結果は、彼の経験的証拠を裏付けた。18世紀と19世紀の英文の手紙、法的記録、日記のエントリー50件からなるコーパスにおいて、LLMは150以上の主要大学やアーカイブで使用されている専門的な手書き文字認識ソフトウェアTranskribusを精度、速度、コストの面で上回った。

訓練されていない文書では、Transkribusの文字誤り率は約8%だった。ハンフリーズの最良のLLMベースのアプローチはそれを2%未満に抑え、作業を50倍高速に、コストは約50分の1で完了した。Transkribus側も、大規模言語モデルを自社プラットフォームに直接統合すると発表している。

「今のようなものを手に入れるのが夢だった」とハンフリーズは言う。

ハンフリーズにはその理由について理論がある。AI研究者リチャード・サットンは2019年、計算能力を活用する汎用的な手法は最終的に常に専門的な手法を凌駕すると主張した。ハンフリーズはまさにそれが起きていると考えている。汎用モデルは非常に広範囲のデータで訓練されているため、その山のどこかで、誰も明示的に教えなくても、手書き文書とその書き起こしの関係を吸収したのだ。

実際の影響はすでに現れている。リアン・レディは歴史学准教授でカナダ先住民史と歴史実践研究チェアであり、ハンフリーズの共著者の一人である。彼女はカナダ中のアーカイブに散在する毛皮交易拠点の日誌、洗礼記録、結婚登録簿を通じて、北米先住民女性の経験を追跡している。

記録のほとんどは、事務員、司祭、郵便局員として働く男性によって書かれており、彼らの関心はめったに周囲の先住民女性に向けられていなかった。これらの物語を表面化させるには、数千の文書を読んで一握りの関連詳細を見つける必要がある。女性の名前はしばしば音声的に綴られ、フランス人、イギリス人、スコットランド人の書き手によって異なり、あるいは誰かの妻としてのみ記録されていた。

「従来の方法でそれらの物語を構築するには、何世代ものキャリアが必要だったでしょう」とレディは言う。「これは可能なことの規模を本当に変えます。」

歴史アーカイブにおけるAI書き起こし

その影響はすでに各機関に波及している。ノースカロライナ大学チャペルヒル校では、図書館員が奴隷制の祖先を追跡する人々に頻繁に利用される特別コレクション資料全体でAI書き起こしを実験している。チームはモデルが手紙や日記をうまく処理し、特に台帳で突破口を開いたことを発見した。台帳はページごとに変化する表構造を持ち、長い間処理が困難だった。

「Geminiは表を非常にうまく処理できる」とプロジェクトを率いるアーキビストの一人、ジャッキー・ディーンは言う。「私たちのユースケースにとって、それは大きな飛躍でした。」

注目しているのは大学だけではない。フィラデルフィア連邦準備銀行は、大規模言語モデルを使用して歴史的な車両登録や不動産権利書からデータを抽出している。これらは以前は大規模処理にはコストと時間がかかりすぎたが、新たな経済研究の問いを開いている。

Archive Pearlはカナダの研究者が開発した、手書き文書を一括書き起こしするためのAIツールである。ここではケベックのアーカイブからの賃貸文書の書き起こしを示している。

カリフォルニア大学サンタクルーズ校の歴史家ベンジャミン・ブリーンは、歴史研究のための独自のAIツールを構築しており、誰が最も恩恵を受けるかを区別している。訓練された歴史家はすでに手書き文字を読めるため、AIツールは彼らの仕事を強化するが変革はしないと彼は言う。より大きな変化は、学部生や家族研究を行おうとする非学生など、他のすべての人々にもたらされる。そして手書き文字を超えて、同じモデルはまったく異なる理由で事実上アクセス不可能だったテキストも解放している。

「技術ラテン語や他の古風な形式で出版されたものは多く、もう誰も読んでいない」とブリーンは言う。「理解するのに一生を費やす必要があるような本です。」

手書き文字解読のためのAIの進化

コンピュータに人間の手書き文字を読ませる問題は、AIにおいて長い歴史を持つ。ヤン・ルカンが1980年代にそれに取り組んでいたとき、ニューラルネットワークはまだ周辺的なアイデアであり、彼は手書き文字に特に興味があったわけではなかった——彼が追い求めていたのはコンピュータビジョンだったが、コンピュータは十分に強力ではなく、データもなかった。手書き文字はかろうじて解決可能だった。郵便局には郵便番号があり、国勢調査にはフォームがあったからだ。「私は文字認識に特に興味があったわけではない」と彼は言う。「それはデータがあった問題だった。」

それ以来、この分野は大きく進歩した。ルカンが1990年代初頭に描いていたアプローチ——テキスト行全体を読み取るニューラルネットワークで、個々の文字に分割せず、言語モデルを使用して視覚システムが見たものを理解する——は、基本的に現代のシステムが構築されている青写真である。

ルカンは問題はほぼ解決されたと考え、彼の新しいスタートアップで機械知能のより難しい問題に移っている。しかし進歩は限界で続いており、困難な歴史的文書を扱う専門グループにとって、その作業は依然として重要である。「改善が速度の問題だけだとしても、以前は時間がかかりすぎて不可能だった新しいことを可能にする」と彼は言う。「しかしそれは速度以上のものだ。人間が行っていたよりも実際に信頼性が高いことだ。」

ウィルフリッド・ローリエ大学のハンフリーズはその信頼性の側面に取り組んでいる。彼はArchive Pearlを構築している。これは現在ベータ版の非営利ツールで、研究者が何百ページもドラッグ&ドロップし、数週間ではなく数分でクリーンな書き起こしを得られるように設計されている。目標は民主化だと彼は言う。「これは人々のための力になるべきだ」と。