分割-将图像分割或扫描成多个片段或像素组-是人工智能(AI)善于的一项任务。
例如:谷歌子公司Alphabe下属的DeepMind公司研究职员最近在一篇学术论文中透露,他们开拓了一种能够以“近乎人性化”的办法对CT扫描进行分割的系统。
现在,德国波茨坦大学(UniversityofPotsdam)的科学家们开拓了一种人工智能分割工具,用于更加卡通化的媒体:漫画。

AI可从漫画中识别“对话框”以资助提高工作效率_对话框_人员 绘影字幕

一幅两层楼高的壁画霸占了英雄城的一侧.由DC漫画的艺术家Jim Lee绘制的蝙蝠侠,罗宾和创始人-风

在预印本平台Arxiv.org上揭橥的一篇论文【基于CNN的漫画对话框检测和漫画分割】中,他们描述了一种可以检测和分离的神经网络(即仿照生物神经元的数学函数层)。
图画小说和漫画书中的对话气泡框,在涉及包含带有“摇摆尾巴”和“波折角落”的气泡的数据集的测试期间,它得到了0.94的F1分数(测试精度的度量),研究职员声称这是最前辈的。

“对话框常日由载体(一种用来容纳文本的符号装置)和一条小尾巴组成,它将载体与其产生文本的根字符连接起来。
尾巴和载体都有不同的形状、轮廓以及摇摆程度,“研究职员阐明道。
它将[对话框]分类为不同的种别,由于它们具有不同的功能:与常日用于阐述目的的字幕比较,对话框里常日包含漫画中的直接言语或人物思想。

研究职员的人工智能模型成功地提取了对话框

该团队开拓了一个完备卷积的神经网络 - 一种常用于剖析视觉图像的AI- 最初是为医学图像分割而设计的,并经由演习用于“自然图像”的分类。
他们略微修正了它并从90本漫画书中添加了750页注释,这是一个图形小说,回顾录和用英语写的非小说的数字图书馆。

随着韶光的推移,它学会了识别漫画中的每个像素是否属于一个对话框。

为了验证他们的方法,研究职员在他们从图形叙事语料库中提取的750张图像的子集(15%)中测试了演习有素的人工智能系统。
令人印象深刻的是,它设法逼近虚拟的轮廓–且对话框的边界没有被物理线条勾勒出来,而是通过界定面板之间空间的线条的“想象”延续。

研究职员假设,他们的人工智能对话框检测系统可以用来创建注释漫画书的语料库,也可以作为历史手稿、科学文章、数字和表格以及报纸文章一样平常分词的第一步,有一天它可能会帮助视力差的人开拓赞助技能。

这并不虞味着它是完美的,这项AI技能在提取日本漫画的对话框过程中就表现很差,研究职员提到。
这可能是由于拉丁字母编码的“特定文化”特色和演习数据集中的对话框的水平方向所致。
但是已经开始有更多漫画样本的更新模型,以及扩展到细分字幕,角色和其他元素的模型。

“当然,这还须要人工赞助验证,但鉴于现有几个打算机视觉领域,[某些AI]模型的性能至少靠近人类表现,我们还是希望能够办理几个繁琐的注释任务,为更有趣的奇迹开释人力资源。
”,研究职员这样写道。

参考文章:

https://venturebeat.com/2019/02/22/ai-extracts-speech-bubbles-from-comic-strips/

— END —