龙泉寺法师研发AI自动标点:给古文加标点效果接近人类_标点_古籍
贤超是北京大学物理学院凝聚态物理研究所硕士,现在是北京市海淀区龙泉寺藏包办公室主任。他透露,自己之以是会关注到人工智能,和阿尔法狗降服李世石不无关系。从那时候起,贤超开始考试测验将人工智能和自己研究的OCR(识别、获取图像等文件上的文本资料)以及自动标点相结合。
贤超法师在演讲中。
“在围棋领域,人类已经一败涂地。我们中华文明非常重视笔墨记录,文献古籍承载了我们民族的影象,那么我想,文献古籍会不会再次成为人类的滑铁卢?AI如此‘不讲武德’,我们人类如何应战?” 贤超说。
贤超首先先容了自动标点技能。所谓自动标点,是指在没有人工干预的条件下,根据算法给古籍文本自动标注当代中文标点的技能,这紧张是为了方便当代读者阅读。
他说,和当代标点不同,古代的标点又称句读,大体相称于只有逗号(或顿号)和句号。当代标点则分为两类,一类是标号,比如双引号、单引号、书名号等;第二类则是点号,比如句号、问号、感叹号等等……根据统计,大约每五到六个汉字就须要加一个点号,个中逗号、句号、冒号等涌现频率较高。
古文标点的涌现频率。
贤超指出,标点符号还具有可替代性,由于不同的人可能会有不同的标注方法,个中分号和顿号的可替代性最强,也就意味着利用的必要性最弱,反之亦然。
标点符号可替代的统计。
据他先容,人工智能首次被运用到这个领域,只是用于自动断句,也便是给古文加句号,但贤超认为这个做法“是比较守旧,比较学术性的”。后来,贤超说,自己的团队将深度学习利用到了自动标点上。
那么效果如何?贤超提到,如果是人工独立完成的标点,作品之间的相似度该当是在80%旁边,相似度过高则会有抄袭的嫌疑。根据这个标准,贤超团队研发的Transformer所标注的结果和人类的标注结果“险些已经无法区分”。
对付Transformer自动标注结果的评价。
贤超还认为,自动标点还有一定的灵巧性和规范性。以“谛听谛听善思念之”这八个字为例,贤超说,人类至少有16种不同的添加标点符号办法,但自动标点只给出了六种方案,也不会“过于单一”。
自动标点的标注结果。
在讲述自动标点技能之后,贤超开始讲解超分辨率与古籍图像增强技能。他认为,如果能实现“所见即所出”,便是将屏幕上人眼所能看到的图像,“重修”到符合出版的哀求,会大大促进古籍的传播和遍及。
此外,这也有利于存储古籍图像。贤超先容道,古籍图像的存储本钱非常巨大,而超分辨率实际上是一个非常高效的解压技能,纵然保存的是很低分辨率的图像,也可以随时重修成一个高清晰度的图像,那么“它存储起来会非常非常经济。”
针对这项技能,贤超在现场播放了几个***来展示团队所开拓的工具。从***中可以看出,这个工具可以比较快速地获取、识别、定位图片上的古籍文本,并为其添加标点符号,乃至能将文言文和口语文进行“对齐”,从而赞助文白翻译。此外,它还具有搜索功能,并能将搜索结果按韶光平分类展示。
对付未来的研究方向,贤超希望能打通“移动和桌面”。他坦言,现在这类运用紧张是电脑真个,能在手机上利用的并不多。此外,他还希望打造本地化的运用,现在大多数的功能须要联网才能运行,但是很多学者对付知识产权非常敏感,并不愿意将文本放到做事器上处理。
采写:南都潘颖欣
本文系作者个人观点,不代表本站立场,转载请注明出处!