“多媒体”一词译自英文“Multimedia”,而该词又是由 multiple 和 media 复合而成,核心词是媒体。
媒体(medium)在打算机领域有两种含义:

人工智能成长概况:多媒体技能篇_多媒体_技巧 AI简讯

一是指存储信息的实体,如磁盘、光盘、磁带、半导体存储器等,中文常译为媒质;

二是指通报信息的载体,如数字、笔墨、声音、图形和图像等,中文译作媒介,多媒体技能中的媒体是指后者。

实在,“媒体”的观点范围是相称广泛的。
“媒体”有 下列五大类:

(1)觉得媒体(Perception medium)指的是能使人产生直接觉得的媒体。
如声音、动画、文本等;

(2)表示媒体(Representation medium)指的是为了传送觉得媒体而人为研究出来的媒体。
诸如措辞编码、电报码、条形码等等;

(3)显示媒体(Presentation medium)指的是用于通信中使电旗子暗记和觉得媒体之间产生转换用的媒体。
如键盘、鼠标器、打印机等;

(4)存储媒体(Storage medium) 指的是于存放某种媒体的媒体。
如纸张、磁带、磁盘、光盘等;

(5)传输媒体 (Transmission medium)指的是用于传输某些媒体的媒体。
常用的有如电话线、 电缆、光纤等。

多媒体技能便是融打算机、声音、文本、图像、动画、***和通信等多种功能于一体的技能,它借助日益遍及的高速信息网,可实现打算机的环球联网和信息资源共享,并且它给传统的打算机系统、音频和***设备带来了方向性的变革, 将对大众传媒产生深远的影响。
因此多媒体将加速打算机进人家庭和社会各个方面的进程,给人们的事情、生活和娱乐带来深刻的革命。
多媒体技能涉及的内容包括:

 多媒体数据压缩:多模态转换、压缩编码;

 多媒体处理:音频信息处理,如音乐合成、语音识别、笔墨与语音相互转换; 图像处理,虚拟现实;

 多媒体数据存储:多媒体数据库;

 多媒体数据检索:基于内容的图像检索,***检索;

 多媒体著尴尬刁难象:多媒体同步、超媒体和超文本;

 多媒体通信与分布式多媒体:CSCW、会议系统、VOD 和系统设计;

 多媒体专用设备技能:多媒体专用芯片技能,多媒体专用输入输出技能;

 多媒体运用技能:CAI 与远程传授教化,GIS 与数字地球、多媒体远程监控等。

2 多媒体技能发展历史

 启蒙发展阶段

多媒体技能的一些观点和方法,起源于 20 世纪 60 年代。
1965 年,纳尔逊 (Ted Nelson)为打算机处理文本文件提出了一种把文本中碰着的干系文本组织在一起的方法,并为这种方法杜撰了一个词,称为“hypertext(超文本)”。
与传统的办法不同,超文本以非线性办法组织文本,使打算机能够相应人的思维以及能够方便地获取所须要的信息。
万维网(WWW)上的多媒体信息正是采取了超文本思想与技能,组成了环球范围的超媒体空间。

多媒体技能实现于 20 世纪 80 年代中期。
1984 年美国 Apple 公司在研制 Macintosh 打算机时,为了增加图形处理功能,改进人机交互界面,创造性地利用了位映射(bitmap)、窗口(window)、图符(icon)等技能。
这一系列改进所带来的图形用户界面(GUI)深受用户的欢迎,加上引入鼠标作为交互设备, 合营 GUI 利用,大大方便了用户的操作。
Apple 公司在 1987 年又引入了“超级卡”(Hypercard),使 Macintosh 机成为更随意马虎利用、易学习并且能处理多媒体信息的机器,受到打算机用户的同等赞誉。

 标准化阶段

自 20 世纪 90 年代以来,多媒体技能逐渐成熟。
多媒体技能从以研究开拓为重心转移到以运用为重心。

由于多媒体技能是一种综合性技能,它的实用化涉及到打算机、电子、通信、 影视等多个行业技能协作,其产品的运用目标,既涉及研究职员也面向普通消费 者,涉及各个用户层次,因此标准化问题是多媒体技能实用化的关键。
在标准化多媒体技能阶段,研究部门和开拓部门首先各自提出自己的方案,然后经剖析、测试、比较、综合,总结出最优、最便于运用推广的标准,辅导多媒体产品的研制。

静态图像的一个标准,是国际电信同盟(ITU)的T.81。
静态图像的紧张标准称为JPEG标准(ISO/IEC 10918)。
它是 ISO 和 IEC 联合成立的专家组 JPEG (Joint Photographic Experts Group)建立的适用于单色和彩色、多灰度连续色调静态图像国际标准。
该标准在 1991 年通过,成为 ISO/IEC10918 标准,全称为 “多灰度静态图像的数字压缩编码”。

***/运动图像的紧张标准是国际标准化组织(ISO)下属的一个专家组 MPEG(Moving Picture Experts Group)制订的 MPEG-1(ISO/IEC11172)、MPEG- 2(ISO/IEC13818)和 MPEG-4(ISO/IEC 14496)三个标准。
与MPEG-1、4等效的国际电信同盟(ITU)标准,在运动图像方面有用于***会议的H.261(Px64)、 用于可视电话的 H.263。

在多媒体数字通信方面(包括电视会议等)制订了一系列国际标准(表 01-03-2),称为 H 系列标准。
这个系列标准分为两代。
H.320、H.321 和 H.322 是第 一代标准,都以 1990 年通过的 ISDN 网络上的 H.320 为根本。
H.323、H.324 和 H.310 是第二代,利用新的 H.245 掌握协议并且支持一系列改进的多媒体编、解码器。

更深层次的多媒体技能标准也开始推出或列入开拓中。
一个范例的标准是称作“多媒体内容描述接口”的 MPEG-7 标准(ISO/IEC15938)。
与已经推出的几个 MPEG 标准不同,MPEG-7 是一个关于表示音/视信息的标准。
它的七个组成部件中,系统、描述定义措辞(DDL)、***、音频和多媒体描述方案等已经成为正式标准,参考软件和同等性测试则操持在 2002 年 9 月成为标准。

 发达发展期间

随着多媒体各种标准的制订和运用,极大地推动了多媒体家当的发展。
很多多媒体标准和实现方法(如 JPEG、MPEG 等)已被做到芯片级,并作为成熟的商品投入市场。
与此同时,涉及到多媒体领域的各种软件系统及工具,也如雨后春笋,层出不穷。
这些既办理了多媒体发展过程必须办理的难题,又对多媒体的遍及和运用供应了可靠的技能保障,并匆匆使多媒体成为一个家当而迅猛发展。

代表之一是进一步发展多媒体芯片和处理器。
1997 年 1 月美国 Intel 公司推出了具有 MMX 技能的奔驰处理器(Pentium processor with MMX),使它成为多媒体打算机的一个标准。
奔驰处理器在体系构造上有三个紧张的特点:

(1)增加了新的指令,使打算机硬件本身就具有多媒体的处理功能(新添 57 个多媒体指令集),能更有效地处理***、音频和图形数据。

(2)单条指令多数据处理 (SIMD, Single Instruction Multiple Dataprocess)减少了***、音频、图形和动画处理中常有的耗时的多循环。

(3)更大的片内高速缓存,减少了处理器不得不访问片外低速存储器的次数。
奔驰处理器使多媒体的运行速率成倍增加,并已开始取代一些普通的功能卡板。

随着网络电脑(Internet PC、NC)及新一代消费性电子产品,如电视机顶盒 (Set-Top Box)、DVD、***电话(Video Phone)、***会议(Video Conference) 等不雅观念的崛起,强调运用于影像及通讯处理上最佳的数字旗子暗记处理器(DSP), 经由另一番的构造包装,可由软件驱动组态的办法,进入咨询及消费性的多媒体处理器市场。

现在多媒体技能及运用正在向更深层次发展。
下一代用户界面,基于内容的多媒体信息检索,担保做事质量的多媒体全光通信网,基于高速互联网的新一代分布式多媒体信息系统等等,多媒体技能和它的运用正在迅速发展,新的技能、新的运用、新的系统不断呈现。

3 人才概况

 环球人才分布

学者舆图用于描述特定领域学者的分布情形,对付进行学者调查、剖析各地区竞争力现况尤为主要,下图为多媒体领域环球学者分布情形。

舆图根据学者当前就职机构地理位置进行绘制,个中颜色越深表示学者越集中。
从该舆图可以看出,美国的人才数量上风明显且紧张分布在其东西海岸;亚 洲东部也有较多的人才分布;欧洲的人才紧张集中在欧洲中西部;其他诸如非洲、 南美洲等地区的学者非常稀少;多媒体领域的人才分布与各地区的科技、经济实力情形大体同等。

多媒体环球学者分布

此外,在性别比例方面,多媒体领域中男性学者占比 91.7%,女性学者占比 8.3%,男性学者占比远高于女性学者。

多媒体领域学者的 h-index 分布如下图所示,大部分学者的 h-index 分布在 中低区域,个中 h-index 在 20-30 区间的人数最多,有 691 人,占比 34.2%,50- 56 区间的人数最少,有 124 人。

多媒体学者 h-index 分布

 中国人才分布

我国专家学者在多媒体领域的分布如下图所示。
通过下图我们可以创造,京津地区在本领域的人才数量最多,其次是长三角和珠三角地区,比较之下,要地本地地区的人才较为匮乏,这种分布与区位成分和经济水平情形不无关系。
同时,通过不雅观察中国周边国家的学者数量情形,特殊是与日韩、东南亚等亚洲国家比较,中国在多媒体领域学者数量较多且有一定的上风。

多媒体中国学者分布

 中国国际互助

中国与其他国家在多媒体领域的互助情形可以根据 AMiner 数据平台剖析得到,通过统计论文中作者的单位信息,将作者映射到各个国家中,进而统计中国与各国之间互助论文的数量,并按照互助论文揭橥数量从高到低进行了排序,如下表所示。

多媒体领域中国与各国互助论文情形

从上表数据可以看出,中美互助的论文数、引用数、学者数遥遥领先,表明中美间在多媒体领域互助之密切;同时,中国与欧洲的互助非常广泛,前 10 名互助关系里中欧互助共占 5 席;中国与德国互助的论文数虽然不是最多,但是拥有最高的均匀引用数解释在互助质量上中德互助达到了较高的水平。

4 多媒体技能进展

近年来,随着数字化技能的发展,多媒体技能突飞年夜进,音***技能是当前最生动、发展最迅速的高新技能领域之一。
多媒体剖析以文本、图像、声音、视 频等多种不同类型媒体的数据为研究工具,紧张的研究目的一方面是使打算机具备人类的多媒体(如视、听)理解能力,另一方面是从多媒体数据中挖掘信息和知识、帮助人类更好地理解天下。

多媒体技能研究领域包括多媒体信息处理、多媒体数据压缩编码、多媒体内容剖析与检索技能、多媒体交互与集成、多媒体通信与网络、多媒体内容安全、 多媒体系统与虚拟现实等。
在近几年的研究中,多媒体技能呈现出与打算机体系构造、打算机网络、人机交互、信息安全、社会网络等多学科交叉领悟的发展趋势。

近两年多媒体领域研究热点紧张集中在大规模图像***剖析、社会媒体研究、 多模态人机交互、打算视觉、打算图像、实时***流化等方面。

由于多媒体数据每每是多种信息的通报媒介(例如一段***中每每会同时使得笔墨信息、视觉信息和听觉信息得到传播),多模态学习已逐渐发展为多媒体内容剖析与理解的紧张手段。

在打算图像方面,大规模数据集的构建仍是一个热点研究方向,尤其语义工具的像素级标注需求越来越强烈,能够人机交互标注的过程中不断学习的协同标注方法得到了广泛关注。

无监督学习是多媒体数据剖析的长远目标。
目前很多领域拥有大量的数据, 但是这些数据都是没有经由标记的。
因此除了基本的数据勘探和非常检测场景,这些数据基本无法利用。
近期在利用未标记的数据来改进(标记数据)监督学习过程方面已经取得了许多进展。

此外自动机器学习(AutoML)和元学习(Meta Learning)的最新研究成果 及其在多媒体上的运用也逐渐增多。

在图像压缩处理方面,也有一些研究事情将深度学习用于图像或***压缩后处理,并得到了一定的效果。
然而,现有事情的一个紧张问题是用于后处理的深度网络较为繁芜,打算速率慢,不知足实际运用的需求。
如何在处理效果和处理速率之间取得一个折中,是压缩后处理的一个紧张寻衅。

图神经网络(Graph Neural Network, GNN)在多媒体领域的运用是近两年的热点研究方向,运用处景包括:个性化推举,如基于多模态图卷积网络(MMGCN) 的多模态推举行法;短***推举,如利用基于图的顺序网络进行建模;多***择要,如采取图卷积网络衡量每个***的主要性和干系性;基于文本的行人搜索, 如利用深度对抗图把稳力卷积网络(A-GANet)利用文本和视觉场景图学习联合特色空间;***关系监测,如利用转移图神经网络(DoT-GNN)办理图像外不雅观变革的问题。

随着 Mask-RCNN 与 RetinaNet 的发展,物体检测研究日趋成熟,但即便如此,就运用而言,当前的技能依然存在诸多毛病,为此,针对当代目标检测的基本框架(backbone、head、scale、batchsize 与 post-processing),神经网络架构搜索(NAS)以及细粒度图像剖析(FGIA)等 3 个方面的潜在难题成为紧张研究内容,尤其是后两者,将成为未来视觉物体检测的两个主要研究维度。

扩展阅读:

人工只能发展概况:机器学习篇

人工智能发展概况:打算机视觉篇

人工智能发展概况:知识工程篇

人工智能发展概况:自然措辞处理篇

人工智能发展概况:语音识别篇

***:人工智能时期

资料来源:公开网络