AI可从漫画中识别“对话框”以资助提高工作效率_对话框_人员

2024-11-22 03:07:39 绘影字幕

分割-将图像分割或扫描成多个片段或像素组-是人工智能(AI)善于的一项任务。
例如：谷歌子公司Alphabe下属的DeepMind公司研究职员最近在一篇学术论文中透露，他们开拓了一种能够以“近乎人性化”的办法对CT扫描进行分割的系统。
现在，德国波茨坦大学(UniversityofPotsdam)的科学家们开拓了一种人工智能分割工具，用于更加卡通化的媒体：漫画。

AI可从漫画中识别“对话框”以资助提高工作效率_对话框_人员绘影字幕

一幅两层楼高的壁画霸占了英雄城的一侧.由DC漫画的艺术家Jim Lee绘制的蝙蝠侠，罗宾和创始人-风

在预印本平台Arxiv.org上揭橥的一篇论文【基于CNN的漫画对话框检测和漫画分割】中，他们描述了一种可以检测和分离的神经网络（即仿照生物神经元的数学函数层）。
图画小说和漫画书中的对话气泡框，在涉及包含带有“摇摆尾巴”和“波折角落”的气泡的数据集的测试期间，它得到了0.94的F1分数（测试精度的度量），研究职员声称这是最前辈的。

“对话框常日由载体(一种用来容纳文本的符号装置)和一条小尾巴组成，它将载体与其产生文本的根字符连接起来。
尾巴和载体都有不同的形状、轮廓以及摇摆程度，“研究职员阐明道。
它将[对话框]分类为不同的种别，由于它们具有不同的功能：与常日用于阐述目的的字幕比较，对话框里常日包含漫画中的直接言语或人物思想。

研究职员的人工智能模型成功地提取了对话框

该团队开拓了一个完备卷积的神经网络 - 一种常用于剖析视觉图像的AI- 最初是为医学图像分割而设计的，并经由演习用于“自然图像”的分类。
他们略微修正了它并从90本漫画书中添加了750页注释，这是一个图形小说，回顾录和用英语写的非小说的数字图书馆。

随着韶光的推移，它学会了识别漫画中的每个像素是否属于一个对话框。

为了验证他们的方法，研究职员在他们从图形叙事语料库中提取的750张图像的子集（15％）中测试了演习有素的人工智能系统。
令人印象深刻的是，它设法逼近虚拟的轮廓–且对话框的边界没有被物理线条勾勒出来，而是通过界定面板之间空间的线条的“想象”延续。

研究职员假设，他们的人工智能对话框检测系统可以用来创建注释漫画书的语料库，也可以作为历史手稿、科学文章、数字和表格以及报纸文章一样平常分词的第一步，有一天它可能会帮助视力差的人开拓赞助技能。

这并不虞味着它是完美的，这项AI技能在提取日本漫画的对话框过程中就表现很差，研究职员提到。
这可能是由于拉丁字母编码的“特定文化”特色和演习数据集中的对话框的水平方向所致。
但是已经开始有更多漫画样本的更新模型，以及扩展到细分字幕，角色和其他元素的模型。

“当然，这还须要人工赞助验证，但鉴于现有几个打算机视觉领域，[某些AI]模型的性能至少靠近人类表现，我们还是希望能够办理几个繁琐的注释任务，为更有趣的奇迹开释人力资源。
”，研究职员这样写道。

参考文章：

https://venturebeat.com/2019/02/22/ai-extracts-speech-bubbles-from-comic-strips/

— END —