档案管理员借助大型语言模型大规模破译手写文字
通用大型语言模型在转录历史手写文字方面展现出日益强大的能力,在准确性、速度和成本上超越了Transkribus等专用工具,使得以往难以访问的档案资料变得可检索。
当我在肯塔基州伯里亚学院的档案馆中翻阅贝尔·胡克斯的私人日记时,我原以为能窥见她未经编辑的内心想法。然而,现实却令人沮丧:她的笔迹是密密麻麻的草书,所有字母的环圈在我看来都一模一样,而日记数量庞大,需要耗费数年时间。于是我随手拍下页面,将其输入ChatGPT,以读取她所写的内容。这个工具效果不错,而且我发现,我并非第一个在档案馆里发现这一方法的人。
让计算机可靠地识别人手写的各种变体,自AI研究之初便是一项挑战。20世纪60年代,研究人员曾预测机器很快就能轻松处理手写文本;但实际情况是,该问题催生了数十年的专门研究和整个商业产业。后来凭借深度学习贡献获得图灵奖的杨立昆(Yann LeCun)在20世纪80年代发表了手写数字识别的里程碑式成果,展示了在狭窄、受控环境下的可能性。但真正的档案是另一回事。
如今,这一界限正在被打破。通用AI模型虽非完美,但已足以改变档案馆的能力。过去需要古文字学训练、定制软件或数周时间才能辨读的页面,现在几秒钟就能获得可用转录。那些被保存下来却实际上被隐藏的馆藏变得可检索,为学者和家庭提供了以前因时间或资金限制而难以提出的问题。
扩大AI用于破译档案手写文字
马克·汉弗莱斯(Mark Humphries)花了十年时间应对规模问题。这位安大略省滑铁卢市威尔弗里德·劳里埃大学的历史学教授兼应用生成式AI项目协调员,已经将加拿大1000万页一战养老金记录数字化。但由于缺乏索引和标准化,查找某个养老金领取者意味着要随机翻阅文件。这些记录由数百名不同的职员、军官和管理人员书写,排除了训练专门模型识别单一笔迹的标准方法。
2023年OpenAI发布GPT-4后,汉弗莱斯开始向其输入手写文字。结果虽然粗糙,但比他尝试过的任何通用工具都好,他想知道这个技巧是否可靠。他和同事们花了两年时间系统测试这些模型的实际能力。结果于2025年5月发表在《历史方法》上,证实了他的经验证据。在一组18世纪和19世纪的50封英文信件、法律文件和日记条目上,LLM在准确性、速度和成本上均超过了Transkribus——这款专业手写识别软件被150多所主要大学和档案馆使用。
在未训练过的文档上,Transkribus的字符错误率约为8%,而汉弗莱斯的最佳LLM方法将其降至2%以下,同时完成工作速度快50倍,成本约为1/50。Transkribus方面已宣布将大型语言模型直接集成到其平台中。
“梦想就是拥有现在这样的东西,”汉弗莱斯说。
汉弗莱斯对此有一个理论。AI研究员理查德·萨顿在2019年提出,利用计算能力的通用方法最终总会超越专用方法。汉弗莱斯认为这正是当前的情况。通用模型在极其广泛的数据上训练,以至于在某个地方,它们吸收了手写文档与其转录之间的关系,而无需任何人明确教导。
实际后果已经显现。莱安娜·莱迪(Lianne Leddy)是历史学副教授和加拿大原住民历史与实践研究主席,也是汉弗莱斯的合著者之一。她通过散布在加拿大各地档案馆的毛皮贸易站日志、洗礼记录和婚姻登记簿,追溯北美原住民女性的经历。这些记录几乎全部由职员、牧师和邮局雇员等男性书写,他们很少关注身边的原住民女性。要发掘这些故事,需要阅读数千份文档才能找到少量相关细节。女性的名字往往以语音拼写,法国、英国和苏格兰书写者各不相同,或者仅被记录为某人的妻子。
“以传统方式构建这些故事需要几代人的职业生涯,”莱迪说。“这真正改变了可能的规模。”
AI在历史档案中的转录
影响已在机构中扩散。在北卡罗来纳大学教堂山分校,图书管理员正在对其特藏材料进行AI转录实验,这些材料被追踪奴隶制祖先的人大量使用。团队发现模型能很好地处理信件和日记,并且在账簿方面取得了突破,账簿往往具有逐页变化的表格结构,长期以来难以处理。
“Gemini处理表格非常好,”负责该项目的档案管理员之一杰基·迪恩(Jackie Dean)说。“对于我们的用例来说,这是一个重大飞跃。”
并非只有大学在关注。费城联邦储备银行一直在使用大型语言模型从历史车辆登记和房产契约中提取数据,这些数据以前因成本和时间原因无法大规模处理,从而开启了新的经济研究问题。
Archive Pearl是由加拿大研究人员开发的AI工具,用于批量转录手写文档。图为魁北克档案馆中一份租赁文档的转录。
加州大学圣克鲁兹分校的历史学家本杰明·布林(Benjamin Breen)一直在构建自己的AI工具用于历史研究,他区分了谁受益最多。他说,训练有素的历史学家已经能阅读手写文字,因此AI工具可以增强他们的工作,但不会改变它。更大的变化在于其他人,比如本科生和非学术人士进行家族研究。除了手写文字,同样的模型还在解锁因其他原因而实际上无法访问的文本。
“有很多用技术拉丁语和其他古旧形式出版的东西,已经没人读了,”布林说。“那些书基本上需要花一辈子才能理解。”
AI破译手写文字的演变
让计算机阅读手写文字的问题在AI领域有着悠久历史。当杨立昆在20世纪80年代研究这个问题时,神经网络仍是一个边缘想法,他对手写文字本身并不特别感兴趣——他追求的是计算机视觉,但当时计算机不够强大,数据也不充足。手写文字勉强可行,因为邮局有邮政编码,人口普查有表格。“我对字符识别并不特别感兴趣,”他说。“这只是我们有数据的一个问题。”
此后该领域取得了长足进步。杨立昆在20世纪90年代初勾勒的方法——一个神经网络读取整行文本,而不是将其分解为单个字符,然后使用语言模型理解视觉系统所看到的内容——本质上是现代系统构建的蓝图。
杨立昆认为问题已基本解决,并已转向更困难的机器智能问题,创立了新公司。然而,边缘进展仍在继续,对于处理困难历史文档的专业群体来说,这项工作仍然重要。“即使改进只是速度上的提升,它也能使过去需要太长时间的事情变得可能,”他说。“但这不仅仅是速度问题。实际上要比人类做得更可靠。”
威尔弗里德·劳里埃大学的汉弗莱斯正在努力解决可靠性问题。他一直在开发Archive Pearl,一款目前处于测试阶段的非营利工具,旨在让研究人员拖放数百页文档,在几分钟内获得干净的转录,而不是数周。目标是实现民主化。“这应该成为为人民服务的力量,”他说。