北京大学数字人文研究中央、北京大学-字节跳动数字人文开放实验室、北京大学人工智能研究院联合主理的“古籍智能信息处理”系列研讨会日前在线上举办。

当古籍修复赶上人工智能_古籍_人工智能 AI简讯

在研讨会上,北京大学数字人文研究中央主任王军算了一笔账:我国现存古籍约有20万种,从1949年到2019年,共修复整理出版了近38000种,照此速率,要将现存古籍全部修复整理出来,可能须要三百年的韶光。
不过,若利用人工智能技能赞助修复整理,大概二三十年就能完成。

王军所说的“利用人工智能技能修复古籍”,并非迢遥的科学设想,它正在成为现实中的生动实践。
“古籍智能信息处理”系列研讨会第一讲开讲后不久,字节跳动宣告向北大教诲基金会供应捐赠,支持北京大学—字节跳动数字人文开放实验室研发“古籍数字化平台”,利用智能技能加速中华古籍资源的数字化培植,估量三年内完成10000种精选古籍的智能化修复整理。

古籍文本转化正在智能化

很长一段韶光里,古籍保护紧张采取原生性保护办法,即把古籍当作“文物”保护起来。
后来涌现再生性保护办法,对古籍进行影印再造和影像保存,让古籍得以以纸本或缩微胶片的形式存在。
现有的数字化古籍很多是由缩微胶片转换而成,分辨率较低且影像多为黑白色。

即便将所有古籍用数字化手段影印出版,古籍也是“去世”的,人们无法方便地利用。
北京大学中文系教授杨海峥举了个大略的例子——影印的古籍没有标点符号,非常不便于阅读。
其余,这也不利于对古籍内容进行检索,想查阅某个内容,得逐篇逐页阅读原文,很难快速找到想要的知识。
因此,要提升传统古籍的利用率,必须将古籍内容转化为数字文本。
过去,这种转化紧张依赖专家人工录入,韶光本钱极高。

“信息技能的发展,尤其是人工智能和大数据技能的涌现,为古籍的修复整理带来了革命性变革。
”王军说,近年来,包括北京大学在内的不少高校、科研机构在古籍数字化上开展了不少开拓性的事情,在OCR(光学字符识别)、AI句读、实体识别等方面积累了比较成熟的技能和履历。
以OCR运用为例,用电子设备对纸本古籍一扫,古籍上的内容就会转录到打算机中,并天生相应的数字文档,效率比人工录入提升了不止千万倍。

据理解,利用人工智能和大数据技能,北京大学数字人文中央在从先秦到明清跨时期的大规模古籍文本语料整理上,已实现对古文本的自动句读,均匀准确率达到94%,同时还实现了对人名、地名、时期名、职官名、书名的自动识别,在中古史料上的准确率靠近98%。

在这些方面,字节跳动等互联网公司也有很多履历和技能积累。
例如,OCR技能在今日、抖音等平台的图片笔墨识别、字幕翻译,以及商业化业务中的各种卡证票据及行业文档识别等领域均有广泛运用。
“这些技能可以逐渐向古籍智能数字化的方向上迁移。
我们在古籍数字化平台开拓中,与北大在技能上能上风互补,进行有效的打通与领悟。
”字节跳动人工智能实验室总监李航表示。

王军先容,“古籍数字化平台”将会进一步提升古籍整理的准确率、智能化水平和开放度。
一方面,可以对重点文本进行精校,知足专家学者对资料准确度的哀求;另一方面,利用智能平台上的笔墨识别、校正工具,学者和古籍爱好者可以在线上一站式完成古籍整理事情,而不用像以前那样先在word文档中进行整理编辑,再通报干系的文档,在提高效率的同时,也方便"大众参与。

古籍利用有望聪慧化

四川大学中国文化环球传播大数据中央教授王兆鹏认为,技能的进步为古籍修复整理智能化带来两个面向:一是古籍文本转化智能化,二是古籍利用聪慧化。

把纸质古籍上的内容转化成数字文本,只是古籍修复整理的第一步。
在此根本上,要办理的另一个问题是,如何将海量晦涩难懂的古籍内容进行整理归类,形成可交互、可触摸、可视化的数字人文作品,以方便人们查阅利用。
否则,录入打算机的古籍依然会连续“沉睡”。

基于人工智能技能,目前我国已建立多个古籍整理自动化和可视化平台。
比如,王军主持设计和研发的“《宋元学案》知识图谱可视化系统”,对240万字的《宋元学案》进行了文本处理和剖析,将2000多位宋元理学学者、近100个学术流派所涉及的人物、韶光、地点、著作等提取出来布局成知识图谱。
然而,不少平台的智能化水平仍旧较低,比如输入关键词,搜索出的内容各自伶仃、缭乱无序。
王兆鹏认为,更聪慧的古籍整理利用平台,该当从1.0版向2.0版演进,比如内容检索应“以类相从”,检索出的内容应彼此关联,且由人工智能进行有机分类。

北京大学与字节跳动互助研发“古籍数字化平台”是提升古籍整理和利用聪慧化水平的一次考试测验。
“我们互助的技能核心是将人工智能和大数据运用在海量的古籍文献上,实现古文本知识图谱的自动天生和对古籍内容的智能化整理,让古籍能够以文本的形态加以检索、关联阅读和深度挖掘利用。
”李航说,未来,“古籍数字化平台”不仅是一个古籍智能整理平台,还将是一个面向读者的数字化阅读工具,将供应免费开放的访问做事。

王军估量,随着人工智能技能的利用,古籍文献中所蕴藏的古代历史文化知识将不断被抽取出来,布局成各种各样的知识库,并将会以知识图谱的形式支持互联网前端运用。

由于在互联网产品研发、设计方面存在上风,互联网公司等社会力量的加入会进一步保障古籍数字化平台的做事质量。
“我们有精良的产品经理、设计师、软件工程师,能够不断优化、创新古籍数字化平台的产品功能,供应更好的用户体验。
”北京字节跳动企业社会任务部产品总经理唐垲鑫表示,目前今日的设计团队和抖音的开拓、测试团队已经加入“古籍数字化平台”的开拓事情。

须要跨学科配合尽力

随着人工智能技能在古籍修复整理领域的广泛运用,作为古典文献专业的老师,杨海峥常常被学生们问到一个问题:“学古典文献的同时,还要学人工智能吗?”虽然杨海峥不能确定,但一个事实是,人工智能技能与古籍修复整理的结合,将开辟出全新的交叉学科领域,利用人工智能技能修复整理古籍肯定须要更多复合型人才。

王军认为,在这种情形下,高校古典文献学等干系专业如何培养兼具技能与学术能力的古典文献学人才,如何形成多学科交叉的课程体系等,都是亟待办理的问题。

此外,人工智能并非“绝顶聪明”。
在华南理工大学电子与信息学院教授金连文看来,古籍图像增强、修复,繁芜版式古籍文档图像版面剖析等问题都有待办理。
而在对古籍内容的剖析整理中,目前最大的技能难点是人工智能对古籍中人名、地名等专有名词识别后,如何进一步实现关系提取,从而为古代历史文化知识图谱的自动天生准备技能条件。

因此,杨海峥认为,在古籍整理中,人文社科学者还是要积极参与,并加强与技能职员的互助,那样才能更好地利用机器而不是被机器牵着鼻子走,从而担保结果的准确性。

人工智能技能的发展带来了古籍整理研究方法、思路的根本改变。
业内的一个共识是,利用人工智能推进古籍修复整理须要进行跨学科、跨环境、跨文化、跨地区互助。
正如王军所言,“古籍保护须要社会各界的共同努力,应欢迎更多古籍收藏机构、研究机构和热心古籍奇迹的个人加入,这样才能打造出一个开放的‘古籍数字化平台’”。

《光明日报》( 2022年04月11日09版)

来源: 光明网-《光明日报》