出品自深瞳工作室
记者杨雪撰稿
策划人:刘恕 李坤
1919 年胡适在《新青年》杂志上发起“整理国故运动”,旨在研究问题、吸收学理、整理国故再造文明。一个多世纪后,“整理国故”运动依然任重道远。书籍浩瀚无边,人才门槛森严,令人感叹:若要完成全部古籍的整理工作,可能得300年时间。
但当古老文化遗产与最新科技结合在一起,令人惊奇的现象可能会出现,就像这本书所展示的一样。
近日,在武汉大学启动了名为“我用AI校古籍”的大型活动。“我是‘校书官’”项目招募了大量的志愿者,他们有望在一到两年内整理出数千万字的古籍,并将整理后的资料以“识典古籍”的形式向大众公开。
若说修补、梳理旧藏文献如同与光阴赛跑一样艰难,则人工智能则犹如武松佩戴的“神行太保”马匹一般,在效率上呈几何倍增式飞跃。
从手工操作到生产线运作,处理效率提升了20倍
华东师范大学古典文献学在读博士生刘帅曾对人工智能(AI)有过疑惑。2017年,他曾使用过一款用于古籍整理的软件,并且发现其功能相当有限。然而,2024年9月,“我是‘校书官’”项目借助“识典古籍”平台,一个月就完成了5000多万字古籍的整理工作,这令刘帅十分震惊。“一年能完成几十万字的工作我就很了不起了。”
“识典古籍”汲取了国内外顶级人工智能研究机构的能力和北大深厚的知识积累。古籍的整理工作按步骤划分,包含文字辨认、文字校订、结构整编及标点校正等任务。AI技术在此过程中扮演重要角色,极大提升了工作效率。
访问“识典古籍”平台后,上传一张图片后,OCR技术会识别出图片中的名、地名、书名、时间及官职。如果系统识别有误,则以不同颜色标记,便于定位这些信息然后在后期处理中进行修正。在文字精校环节可以使用两套文本比较差异撰写数字校勘记等等
北大数字人文中心副主任杨浩做过测试,AI能对文章进行正确标点的概率为90%,而翻译古文也能达到专家水平。刘帅说,他遇到问题时也会去参考“识典古籍”的自动标点,就像围棋爱好者向AlphaGo学棋一样。
杨浩说,传统图书编撰工作主要以出版为目标,在精确度方面有着极高的要求。这也使这项工作的门槛非常高,即便是古籍专业的学生也很难在这些专业领域内有所突破。大部分项目都是由一位专家负责整套的图书编辑,从最初的调研开始到最后完成所有细节的工作,整个过程需要很长的时间和精力。
现在有了人工智能,AI在读取大量人类成果后具备了相当的“语感”。它先初步整理古籍,逐字校对,并由志愿者再审核,最后把难字提交给专家。他说,这使得工作流程发生了变化。“我们改变了传统的手工作坊模式,现在变成了流水线工厂。”
这项依托“识典古籍”平台的项目,让对古籍感兴趣的普通人也能参与进来。“我是‘校书官’”计划是由全国22所高校共同发起的,学生报名人数已经超过数万人次。去年,“我是‘校书官’”项目的志愿者按照能力水平被分为大众组和进阶组两类,私家侦探,侦探公司,调查公司,查人找物,商务调查,出轨外遇调查,婚外情调查,私人调查,19209219596前者主要负责粗校,后者专注于精校工作。目前已有1643部古籍完成粗校,共计2451万字的古籍被整理完毕。
2024年九月期间,刘帅参与了“我是‘校书官’”项目,在首两个月内就整理出大约两百万字的古籍,这是以往速度的二十倍之多。随后他每日花掉约二小时进行工作,一个月便可校点完一本四十九万字难度相当高的古代书籍,并且质量非常高。整个计划为期三个月,刘帅总计完成了191部手稿及标注、排版等总共五百万字的作品。
逐步提高辨别庐山的真相的能力。
将古籍从图书馆库房转移至电子资源平台,其处理效率大幅提高的主要因素是人工智能“识古”技术的出现:它可以读取残破陈旧的书籍文字或是辨别晦涩难懂的文字图案。
以前,在图书数字化时古书是很难进行的。传统的文字识别软件是用来识别打印出来的材料的,并不适合用来处理手写或未打印出来的材料,这种传统软件经常会遇到一个问题:当一个字有多种可能写法时它就会“懵逼”;在古籍中有时会看到笔画符号而在现代打印机上没有。此外还有个问题就是古籍常常会有破损折痕以及许多地方都出现磨损和污渍,这是为何图书馆多年来进度缓慢而主要依赖人工的重要原因。
培养精通专业技能的专业人才通常需要耗费多年的功夫,但如果利用了机器学,一些较为棘手的任务,比如辨识汉字,也可以交由人工智能去完成。
在国际上,人工智能复原庞贝古卷的成就令人信心满满。公元79年因火山爆发被掩埋的赫库兰尼姆莎草卷轴已碳化无法展开,其上的墨水痕迹图像只能通过CT扫描得到微弱影像。3位年轻科学家利用机器学习技术从这些图像推断出大约2000个字符连成一段与伊壁鸠鲁哲学有关的文字。这项成果让国际古典学界兴奋不已,预计在2024年发布后即可广泛应用
2024年,“我是校书官”项目采用人工智能技术将1600年前敦煌藏经洞出土的古卷《汉书·刑法志》修复完好,AI学习了该古籍的文字、笔迹和页面纹理,并使用新的字体、色彩、背景将其缺损的文字按原样修复还原,使整本古籍与原作完全一致。另一个人工智能项目则完整重现了东晋大书法家王羲之的名帖《兰亭序》清晰无暇的面貌,其笔画风格严格遵照了大师的手法技巧。
我们提供了“回溯源头”的功能,有疑问的话可以一键找到原文进行人工比对和校正。“抖音集团企业社会责任部”古籍项目产品负责人王宇表示,他们正在研究改进识别手写字迹、异体字、复杂版式及插图的能力。
中国高校古籍整理工作委员会副主任兼秘书长吴国武表示,为了提升计算机识别能力还需要有更多优质的训练数据。比如已有的整理本版权归属在整理者、出版社。“只有加强共享机制建设才能促进数据库的开发和利用。”
目前已有基于对现存大量甲骨文图像的分析,AI程序能梳理出几千个甲骨文字母,在各个不同的甲骨文文献间识别和建立联系。
其实越鲜有人问津的生僻符号就越适合AI来处理。我国的少数民族创造并使用过30多种古字,而国务院公布的第一至第六批《国家珍贵古籍名录》中收录了1133种古代少数民族文献,图书馆收藏的少数民族文古籍就有18个语种,总数达34,000多册件。这些材料的数字化和整理工作目前缺乏专业人才,并且更依赖AI技术。“这些资料以后有望大量由AI来处理。”王宇表示
提升人才培养质量,以使传统文化古籍得以传播
根据国家古籍保护中心的研究显示,在我国现存的20多万种古代图书中,大约有50万个版本已经存在,并且这五百万本古籍中有超过3,200万册文献实体存在。自上世纪80年代以来,我国就开始尝试将这些古籍进行数字化处理工作,但在技术、资金以及版权等各方面因素的制约下,可供数字化处理的只有不到八千种图书。虽然也有少私家侦探,侦探公司,调查公司,查人找物,商务调查,出轨外遇调查,婚外情调查,私人调查,19209219596数一些古籍完成了影像扫描的工作,但实际上真正实现了文本内容电子化处理的也只有不到四千余种文献实体。
吴国武告诉记者,目前全国范围内专业从事古籍整理的人员仅有一万人左右。
面对众多珍贵古籍,《整理国故》面临巨大挑战:现有古籍整理方式犹如愚公移山,而这一过程正面临专业人才缺乏及生产力低下的困扰。
100年前胡适先生感叹,古籍本身结构混乱使年轻一代对本国文化与学术缺乏兴趣,“对于中国文化及学说都未曾引起应有的研究”,这个问题至今没有得到很好解决。古籍的研究仍然是一门冷僻的学问,许多古籍从未向公众开放。
2022 年,中共中央办公厅、国务院办公厅下发的《关于推进新时代古籍工作的意见》明确提出,要推进古籍数字化,从而全面深化国家古籍工作。由全国古籍整理出版规划领导小组发布的《2021—2035年国家古籍工作规划》,将“国家古籍数字化工程”作为重要工程项目,并就相关工作的具体实施方案进行了详细部署和安排。
吴国武将AI视作合作伙伴而非简单工具,其加入为公众提供了一个直接参与古籍整理活动的机会,这可以称作广袤的“整理国故”土壤。
例如,“识典古籍”平台现已免费开放超16000部古籍资源,累计吸引众多观众深入了解和阅读古籍。同时它还为超过1300个外部机构的古籍整理提供了帮助,并被视为近年来文献学界最引人瞩目的大事。
至2024年底,《儒藏》工程与“识典古籍”平台达成合作协议。《儒藏》工程是新中国成立以来规模最大、最系统的一次儒家经典文献的整理项目,预计将收录自先秦直至清末的所有儒家学说文献约10亿字,其中不少资料由于年代久远和保管方式,已经难寻踪迹。与影印相仿的整理工作,并未使用相对简单的办法,而是在于把古代典籍整理得更便于现代人阅读利用,这对参与项目的学者们来说是艰巨且繁复的工作。引入AI技术后,这些古代文献的整理工作将大大缩短时间,成果也会在“识典古籍”平台上与全民共享,让古籍典藏得以传承并被大众熟知。
在王宇看来,AI技术能大大提升学者研究工作的效率;而《校书官》项目的志愿者,除了可以学习到专业的古籍知识,还有机会参与到国家大工程当中去。“我将来可能会考虑从事这方面的专业工作。”他说道。
AI的加入也改变了古籍整理人才培养模式。吴国武介绍,目前高校里古典文献专业的课程都开设有数字人文相关的交叉培养课程;已有7所大学申请开设了本科的专业,在古籍整理是重要方向。这些融合交叉培养的人才,有望填补古籍专业大模型人才缺口
从去年至今国内许多知名图书馆与博物馆也积极引进了AI技术保护并发掘其馆内收藏的古典资料。国家图书馆拥有现存最古元大德三山郡庠刊印版《通志》首都图书馆藏有《皇朝礼器图》浙江图书馆持有文澜阁全本四库……一系列珍稀文献,通过AI技术修复将会重见天日再次展现在世人眼前
面对这股热潮,刘帅显得格外兴奋。他认为人工智能能够吸引更多爱好者去整理古籍,“大众对于古代文献的兴趣、热情以及参与度是决定这项工作高度的关键因素。在我看来,这是一个即将到来的时代变革”。
在人工智能快速发展的今天,AI的速度远远超过了人类所能及的能力。刘帅也曾因为担忧自己会失业而感到困惑。但是现在他却相信,虽然AI对古代书籍进行了深度的了解,但是由于它的基础是人工整理和加工过的高质量数据,无论技术如何发展,仍旧需要有人去理解这些书籍背后的故事,保证文化遗产得以传承下去。
“降低古籍的阅读和整理门槛”,一直是文献学的根本目标,刘帅说。
顶: 549踩: 7





评论专区