AI可从漫画中识别“对话框”以帮助提高工作效率

作者:admin | 被撸过次 | 返回《勇者传说》目录

  分割-将图像分割或扫描成多个片段或像素组-是人工智能(AI)擅长的一项任务。例如:谷歌子公司Alphabe下属的DeepMind公司研究人员最近在一篇学术论文中透露,他们现在,德国波茨坦大学(UniversityofPotsdam)的科学家们开发了一种人工智能分割工具,用于更加卡通化的媒体:漫画。

  一幅两层楼高的壁画占据了英雄城的一侧.由DC漫画的艺术家Jim Lee绘制的蝙蝠侠,罗宾和创始人-风投教父蒂姆·德雷珀的英雄造型。

  在预印本平台发表的一篇论文【基于CNN的漫画对话框检测和漫画分割】中,他们描述了一种可以检测和分离的神经网络(即模拟生物神经元的数学函数层)。图画小说和漫画书中的对话气泡框,在涉及包含带有“摇摆尾巴”和“弯曲角落”的气泡的数据集的测试期间,它获得了0.94的F1分数(测试精度的度量),研究人员声称这是最先进的。

  “对话框通常由载体(一种用来容纳文本的符号装置)和一条小尾巴组成,它将载体与其产生文本的根字符连接起来。尾巴和载体都有不同的形状、轮廓以及摇摆程度,“研究人员解释道。它将[对话框]分类为不同的类别,因为它们具有不同的功能:与通常用于叙述目的的字幕相比,对话框里通常包含漫画中的直接言语或人物思想。

  该团队开发了一个完全卷积的神经网络 - 一种常用于分析视觉图像的AI- 最初是为医学图像分割而设计的,并经过训练用于“自然图像”的分类。他们略微修改了它并从90本漫画书中添加了750页注释,这是一个图形小说,回忆录和用英语写的非小说的数字图书馆。

  为了验证他们的方法,研究人员在他们从图形叙事语料库中提取的750张图像的子集(15%)中测试了训练有素的人工智能系统。令人印象深刻的是,它设法逼近虚拟的轮廓–且对话框的边界没有被物理线条勾勒出来,而是通过界定面板之间空间的线条的“想象”延续。

  研究人员假设,他们的人工智能对话框检测系统可以用来创建注释漫画书的语料库,也可以作为历史手稿、科学文章、数字和表格以及报纸文章一般分词的第一步,有一天它可能会帮助视力差的人开发辅助技术。

  这并不意味着它是完美的,这项AI技术在提取日本漫画的对话框过程中就表现很差,研究人员提到。这可能是由于拉丁字母编码的“特定文化”特征和训练数据集中的对话框的水平方向所致。 但是已经开始有更多漫画样本的更新模型,以及扩展到细分字幕,角色和其他元素的模型。

  “当然,这还需要人工辅助验证,但鉴于现有几个计算机视觉领域,[某些AI]模型的性能至少接近人类表现,我们还是希望能够解决几个繁琐的注释任务,为更有趣的事业释放人力资源。”,研究人员这样写道。

荒淫另类邪恶的勇者踏上征程吧!
返回目录