中国是世界四大文明古国之一,中国浩如烟海的文献典籍记录了历史。然而遗憾的是,近代以来超过400万册中国古籍由于种种原因流散海外。
阿里巴巴达摩院、四川大学、美国加州大学伯克利分校近日公布,他们花费两年多的时间,教会了AI识别中国古籍,将它们以数字化的形式接回故土,置于网络公益平台,向所有人开放。
这个项目的名字叫“汉典重光”,意为让失落的珍贵古籍重放光芒。“汉典重光”以97.5%的准确率,识别了20万页古籍,覆盖3万多字的古籍字典。
现代科技照亮中国古籍“回家”之路
中国古籍拥有非常庞大且复杂的知识体系,包括甲骨简牍、敦煌遗书、宋元善本、明清精椠、拓本舆图、少数民族文献等等。所涉及的范围也是极其广泛,有应对自然灾害、流行疫病、经济波动、政治斗争、外交危机、气候变迁等的经验,有战争、瘟疫、地震、洪涝灾害、病虫害等方面的经验总结,还有医疗、中药、养生、家具、服饰、饮食文化等生活经验。
加州大学伯克利分校的东亚图书馆是全美三大东亚图书馆之一,90万册藏书里四成都是中文书,还有不少甲骨文和拓片。第一次到这儿的中国学者总感觉在穿越历史的“虫洞”,这些古籍不能运回中国,那就用数字化手段让古籍的内容“回家”。
2019年,阿里巴巴和四川大学提出“数字化回归”设想,四川大学历史文化学院副院长王果与中央文史研究馆馆员陈力牵线搭桥,沟通北美、欧洲、日韩等地藏书机构,最后获得加州大学伯克利分校支持,达成共识,将伯克利东亚图书馆的中文古籍善本逐步数字化。
前所未有的挑战
据王果介绍,“汉典重光”的分工非常明确——采集侧把纸质书变为影印版,数字化生产侧把影印版变为文字版,应用侧为文字版增加检索、字典和知识图谱等研学系统。东亚图书馆完成第一个环节后,四川大学将和达摩院共同完成另外两个步骤。其中,四川大学将提供一切非计算层面的专业支持,并与达摩院的机器视觉实验室合作,共同开发古籍AI技术。
首批数字化的古籍共20万页,包含40余种珍贵宋元善本。刚开始大家对这个项目很有信心,但实际一上手才知道难度有多大。
首先是中国古籍的载体很多,纸、布、竹子、木头、甲骨、石碑……几乎所有能用的载体都被古人留了字,不同载体上面的字识别起来差别非常大。年代久远的纸张大多残缺不全,上面还布满斑点,而且排列非常复杂。古人喜欢从上到下,从右到左,还非常喜欢在上面做批注。
字迹的精美也成了负担。隶书、楷书、草书、行书都漂亮,但也真难认。大部分字还是手写的,不但两个人写的同一个字不一样,同一个人写的同一个字也差别很大,很多字还有不同写法。
团队原有的OCR(图像文字识别)的识别准确率只有40%,这显然是不够的,较早涉足古籍识别的Google Books(谷歌图书)针对的都是英文古籍,对中文也不适用。
大量创造性和创新性的辛勤劳动
没有前车可鉴,只能自己来了。“这就像教小朋友识字,确实难,但也有简单的部分,我们就由易到难慢慢做。”王果说。
前所未有的开拓性成果,包含着中国学者大量创造性和创新性的辛勤劳动。
达摩院的古籍识别算法,用AI替代人工,大幅压缩了专家标注工作量。在机器为主进行识别的97.5%的内容中,约有1%(1万字左右)需要专家录入;机器不能识别的余下2.5%(2.5万字)的文字,全部交给专家做后期标注。相比人工专家录入,百万字书籍的数字化工作量从1000天降低到了35天,效率比人工专家录入方案提升近30倍。这种古籍识别算法,为中华古籍的回归提供了另一种可行可期的思路。
非计算机层面的工作也非常重要,四川大学专门组织了30多个历史系学生来做标注,这很耗神,眼力、脑力缺一不可,但这个过程没法省略,就像学生要学习,算法也要迭代,“只有数据够多够好,机器才能搞定”。
这是一件非常难但非常有意义的事情。古籍识别的挑战巨大,但大家还是想通过技术让古籍活起来,用科技守护文明。
据了解,达摩院、四川大学、美国加州大学伯克利分校、中国国家图书馆、浙江图书馆将继续投入人力、物力,扩大古籍数字化回归的数量,让所有蒙尘的古籍重焕新生。
上一篇:第30届中国戏剧梅花奖颁奖