张家欣
从金融到医学人工智能(AI)正深刻改变着现代社会。如今AI开始涉足古文研究领域:希腊与拉丁经典、中国甲骨文等历史文献,人工神经网络成为解读这些古老文本的工具。它能驾驭繁复的大量档案,填补文字空白,并且能够解码几乎不为人所知的罕见或灭绝语言,重现古代文明的辉煌智慧。

2023年10月,费德里卡·尼科拉尔迪收到了一封电子邮件。邮件附带了一张图片。这张图片显示了从公元79年维苏威火山爆发幸存的一卷莎草纸残骸,它在18世纪赫库兰尼姆古城一处豪华别墅遗迹中被发现。这些历经沧桑的莎草纸原本是数百份古籍之一,如今因为岁月侵蚀变得脆弱不堪,大部分都无法展开
尼科拉尔迪是意大利那不勒斯大学的一名莎草纸学者,她曾参与一项利用AI读取难解文字的研究。而今,她见证了一项奇迹:图片上,一片莎草纸带上,希腊字母密布如织,于幽暗中焕发新生。
这个被称为“维苏威挑战” 的项目是重塑古代历史研究中 AI 局面的一小部分。

利用神经网络对古代文本进行重建
在过去的几十年里,计算机主要用于数字文本的分类与分析,然而当前最为让人兴奋的是神经网络的应用。它们是一个通过互相相连的单元构成的层次结构,并且尤其是多内层数字深层神经网络。
卷积神经网络(CNN)能够精准捕捉网格状数据结构,尤其是在光学字符识别领域大放异彩的同时,还开辟了其他多元化的应用途径。例如,私家侦探,侦探公司,调查公司,查人找物,商务调查,出轨外遇调查,婚外情调查,私人调查,19209219596中国研究团队在探索甲骨文时,巧妙地运用这些模型来复原遭受严重侵蚀的文字图案,深入分析甲骨文随时间的演变轨迹,并将破碎的文物碎片重新拼凑起来,重现历史原貌。
与此同时,循环神经网络(RNN)因其专为线性序列数据设计的模型,而被广泛应用于处理搜索、翻译以及填补已转录古代文本缺失内容等方面,并且被用于智能填充巴比伦时期数百份格式严谨的行政和法律文本中的缺失字符。
那么,人工智能能否在历史碎片中寻找专家们无法揭示的信息线索?2017年,在牛津大学的研究者携手合作下,两人遇到了解古希拉罗马铭文中问题。
古典学者常常依赖对现存文本的理解来诠释新的考古发现,然而却难以全面把握所有相关的背景资料。牛津大学的研究人员则认为正是这一领域使得机器学习能够发挥作用。他们使用基于RNN的人工智能模型Pythia,并用数万份希腊铭文的训练数据进行训练,最终成功预测了这些文本中的缺失词和字符。
2022年,他们推出Ithaca模型,在预测缺失内容以及为未知文本提供日期和来源地建议方面取得了成功。Ithaca模型利用了Transformer模型的独特优势,并在复杂语言模式识别方面取得了突破性进展。当前风靡全球的聊天机器人,如OpenAI的ChatGPT也基于Transformer模型开发而成。
重译浩瀚的历史资料
韩国研究者有一个艰巨任务:整理世界上规模最大的历史档案之一,该档案详细记录了27位朝鲜王国国王自14世纪至20世纪初在世期间的日常生活,并涵盖数十万篇文章。美国纽约大学机器翻译专家金亨俊认为这些文本数据量非常巨大。
这项工作将耗费数年时间完成。金亨俊和韩国的同行联手,在Transformer网络的框架下,开发了可私家侦探,侦探公司,调查公司,查人找物,商务调查,出轨外遇调查,婚外情调查,私人调查,19209219596以翻译韩语的自动机器学习系统。经过测试,这项AI技术在准确性和可读性上远超古韩文,有时甚至优于现代韩文
对于那些仅有少量古代文本可资研究的语言而言,研究人员也采用神经网络进行解密工作。希腊帕特拉斯大学的卡特里娜·帕帕瓦西里欧及其团队,在RNN的基础上成功恢复了克里特岛诺索斯迈锡尼泥板中的缺失线性文字B文本,通过测试证实模型预测准确度高,并且经常能与专家的建议保持一致。
面对验证和利用的双重难题
尽管人工智能(AI)已经取得了一定成果,但仍面临许多挑战来破解古文字,这些挑战主要涉及如何确保研究成果准确无误。随着非专业人士也能接触到大量古代文献,正确理解并利用AI技术所带来的数据和知识显得尤为重要。然而,神经网络的强大特性虽然令人称奇,但也带来了些许难题,其中一部分是“幻觉现象”,即其偶尔产生的误导性结果,这使得研究者的成果可靠性备受质疑。
《自然》杂志指出为解决该问题人文科学家和计算机科学家需携手合作共同研究及验证AI的解读结果同时提倡将所有相关数据(包括原始文本、扫描文件、训练模型及算法)实行开源以此提升研究的透明度与可验证性这一做法被称为“数字来源链”旨在构建从原始数据到最终结论的一条完整链条便于任何人回溯并核实研究过程。
此外,随着数字化文本数量的激增,如何有效利用这些庞大的数据资源,从中提炼出关于古代社会的重要信息,也是研究人员面临的新课题。这要求研究者转变视角,从单一的文本分析转向对整体文化的深入理解,并尝试将不同地域、不同时期的文本数据相互关联,以获得更为全面的认识。
顶: 4953踩: 66



评论专区