择要:AI改变天下、数据做事AI

Testin云测陈冠诚:探秘人工智能背后的硬核英雄_数据_人工智能 智能助手

我们正在人工智能时期的前夜,从上世纪五十年代的达特茅斯会议至今,人类花了漫长的韶光去实现让人工智能降临的三大条件:算法、算力和数据。
三者中,新的算法让科学家们有着智者般的光环,算力的打破则是 ICT 巨子们相互炫耀的造诣。
只剩下数据,这个最为主要且弘大的领域,开始有越来越多的人好奇数据的生产过程。

随着人工智能家当落地的发展加速,运用人工智能对优质数据的渴求越来越强烈。
「下一个十年,人工智能须要更好的数据」Testin 云测 CTO 陈冠诚这样坚信。
过去十年中,这个行业涌现了互联网数据—数据集—众包数据—定制化等商业模式,随着人工智能发展到不同的阶段,对数据做事也提出了不同的需求,以往层层外包、同质化严重、数据质量和安全少有保障的「数据工厂」,正逐渐被淘汰掉。

每个行业都有其生命周期,也有其高下家当链,我们所能看到的是,数据做事家当正跟随人工智能来到了关键的家当上升转型期,全体行业将豹变,未来十年的人工智能须要什么样数据做事?我们约请了陈冠诚来讲述答案。

以下是 Testin 云测 CTO 陈冠诚在 GeekPark IF X 上的演讲实录(经极客公园编辑整理):

大家下午好!

本日大家听到的搜狗同声传译,还有傅盛刚刚提到的猎豹移动机器人,实在都是人工智能前真个运用,大家有没有想过,这些光鲜的人工智能运用背后有什么故意思的故事呢?这是我本日想要跟大家分享的主题。

实在 Testin 云测常常跟 AI 企业同台获奖,但可能在座很多不雅观众对我们没有特殊理解,而这也是我本日跟大家分享的目的。

首先问大家一个问题,大家身边有哪些人工智能运用?实在我问这个很傻,由于大家立时能想到很多身边耳熟能详的运用,比如说人脸识别、语音帮手、智能家居、智能音箱、自动驾驶等。

我前几天刚从杭州出差回来,住了一个很故意思的酒店,名字叫阿里未来酒店,这个酒店号称是无人职守的,供应的都是机器人的做事,我进去的时候从前台开始就不须要人工做事了,我只须要拿我的***刷一次卡,进行一次人脸识别,它就可以精确识别出来,我便是那一个想要入住的乘客。

同时酒店也没有给我一张房卡,它见告我只要在房门门提高行一下人脸识别,就可以开门了。
进去之后可以用智能音箱进行语音的掌握,掌握房间里的灯光和电视机频道,你还可以进行闹钟的设置,可以掌握窗帘的开关,非常方便。

但是,这些实在都是前端,前端便是跟我们用户交互的运用,大家有没有想过,这些运用背后到底是怎么实现的?我相信在座很多人都听过人工智能三要素:

1、算力

2、算法

3、数据

如果我们把人工智能比作一个个学生,老师自然是它们背后一个个实现这些机器学习算法的工程师,老师去传授教化生自然须要教材,教材便是我本日想要跟大家分享的数据。

从我们自己从小到大的学习经历来讲,我们学过范例的语、数、外,非常多门类的学科,一个好的教材实在是很难得的,那个时候可能大家如蚁附膻的是名校出的一些非常好的教材,或者课外辅导教材,大家都认为这样的教材有保障,对教诲学生有很好的效果。

实在高质量的 AI 数据也有一样的效果,为什么我们说制作一个好的教材、生产一个好的 AI 数据很困难呢?给大家看一个例子。

这实在是云测数据曾经制作过的一些教材或者数据,里面包括图像、***、文本,在这些大类下面还有纷繁繁芜的需求。

比如用天津话说的英语、用四川话说的法语,这个虽然听上去很奇葩,但是这个是真实涌现过的例子,比如说不同人种的人脸数据等,比如说你从大段的笔墨里面去摘取里面专业的形容词、润色词。
这些 AI 运用的落地本身是在各个场景下的,我们如果把人工智能看作是一个学校里面不同的学生,他们可能都有不同的性情、脾气、特长、善于的领域,这就意味着如果我们想要教好这些学生,我们的教材必须能够适应各种各样专长、领域传授教化的需求。

这样的话,老师才能够更好的因材施教,把这些学生教得更聪明、更专业,我给大家看一个例子,这张图实在一览无余,有蓝天、白云、道路,上面也有车道线,中间有一个行人。

从自动驾驶研发的角度上去看,如果你要演习一个好的自动驾驶的算法,你这些算法的教材里面,如果包含了这一类数据的话,演习出来的人工智能的算法是很随意马虎精确识别出来,道路中间有一个行人,接着做出踩刹车或者是减速的反应。

但是,如果这个行人撑了一把伞,而你教这个 AI 机器人的教材里面,本身没有包含这个场景的话,很有可能涌现一种情形,算法无法精确的识别在道路上撑了一把伞的行人。

要办理这一类的问题实在很大略,只要在你的教材里能够覆盖到这种场景。

但是,真实的自然场景实在会更加的繁芜,雪天、雨天、老人、儿童、一直的车型、车道线、旗子暗记灯等等各种各样的场景都必须要覆盖到,乃至是如果马路上溘然滚来了一个皮球,算法都必须要快速、精确的识别出来。
而这些还只是 AI 落地当中的冰山一角。

对付 AI 来说,多样化的场景,就像是一个个学生一样,它须要我们的这些教材,或者说我们这些数据,不仅要覆盖到,而且还哀求精度足够的高。
这样的话我们这些 AI 算法背后的工程师,或者说这些老师,才能够更好地因材施教,把这些学生教成各个领域里面出类拔萃的学生。

我们把这些质量高、针对性强的数据叫做是好的数据。
我们怎么区分一个数据的好坏呢?其实在这个行业里面,我们很随意马虎把它分成三个维度:

第一,效率

第二,安全

第三,精准度或者说质量

我逐一给大家阐明一下,我们先聊一聊效率,大家知道人工智能这个行业,实在迭代的速率会非常快,刚刚傅盛也提到他们做猎豹移动的机器人,每一代的机器人可能都是不一样的,这么高的迭代速率,实在对付你怎么高效率得到高质量的据作为教材,提出了非常高的哀求,便是效率这个维度。

其余一个维度是安全,大家知道现在公民的隐私越来越受到关注和保护,我们如果要真的去做一个好的数据,作为 AI 算法的教材,一定要把稳保护好公民的隐私,且获取合法合规的授权,来担保你拿到的数据是没有问题的。

然后便是质量,这个实在是非常显而易见的,但是我唯一要强调的一点是说,由于全体 AI 现在落地场景的多元化,以是实在全体行业对付好教材或者是好数据的哀求,必须是你能够在你覆盖的所场景下质量精准高。

可以说作为人工智能的三要素,如果没有数据或者是没有好的数据,人工智能肯定是没有未来的。
本日的大主题实在是下一个十年,我们知道如果想要展望未来,我们先要更好地回顾一下过去,看看我们有什么可以借鉴的地方。

我们跟大家先分享一下,全体数据的行业来龙去脉,实在我们知道全体互联网经由了几个浪潮,比如说 PC 互联网、移动互联网、智能互联网或者说下一代的智能物联网 IoT、AIoT,我们去看最早的时候,实在施业里面通过互联网已经沉积了很多用户的数据,比如说用户的点击和浏览的数据。

这些数据能够干什么呢?实在大家本日已经享受到了非常多的运用,比如说你在进行***浏览的时候,它的推举引擎会利用你过往浏览行为、点击行为给你推举你感兴趣的内容。

其余便是通用型的数据产品,我给大家举个例子,比如说你可能是一个 APP 的开拓商,或者说做了一个 APP 的公司。
然后你沉淀了很多用户的数据,比如说你的用户可能上传了很多用户的头像。

有一天你说我想要加一个人脸识别的功能在我的 APP 里面,你会怎么做?你可能想我先用用户已经授权给我的头像的数据来演习出一个人脸识别的引擎行弗成?可能一开始确实能够做出一个不错的算法来,但是随着运用的深入,你会创造用户供应的这些通用型的数据产品可能不能知足人脸识别的精度哀求。

我给大家举个例子,人脸识别最范例的哀求是一个实体,比如说单个自然人在多个角度的照片,而用户上传的头像很多的时候都是单一角度的,怎么办理这个问题?如果你要做这样一个人脸识别引擎的话,你可能须要采集同一个自然人不同角度的照片,这个时候可能就出身了第三种办法——众包数据的做事模式。

什么观点呢?比如说我们在一个众包的情形下,发布一个悬赏的任务,这是一个付费的任务,所有乐意参与付费众包任务的用户,按照你任务的需求,拍摄了多个角度同一个人的照片,然后把这个照片授权给你,让你用来演习人脸识别的算法。

但是,再过一段韶光,如果你全体人脸识别的精度想要更高的话,你可能会创造一些问题,比如说众包用户上传的这些照片的精度可能是不足的,比如说众包用户用的是 400 万像素的摄像头,但是你的算法工程师见告你,必须要 800 万像素的摄像头,而且还要有特定的光芒的强度、角度,才能够做出一个真正在各种场景下都能够利用的人脸识别的引擎,这个时候就出身了定制化的数据做事。

我认为,从我们的角度去看这个行业的话,未来的 10 年定制化的数据做事,便是全体人工智能行业里面最主流的办法。

我们再聊一聊,什么是定制化数据,或者说定制化数据的全体发展趋势里面最主要的哪些内容,实在我个人认为会有五大块:

第一,设备的定制化

第二,场景的定制化

第三,样本的定制化

第四,事情的协同化

第五,事情的专业化

我给大家举一个例子,我们先聊一聊设备的定制化,还是以目前非常火热的自动驾驶行业为例,在 20 年前最早研究自动驾驶的实在很多是高校的教授和学生,他们在做第一代自动驾驶方案的时候可能只用一个摄像头来进行道路、车辆、行人的识别。

随着技能和行业的发展,逐步地从单摄像头的方案过渡到了多摄像头的方案,随着行业的进一步发展,有一些人选择了多摄像头纯视觉的方案是不能知足哀求的,我们必须引入更多专业定制的设备,比如激光雷达。

我们先不去辩论在自动驾驶行业里未来到底是纯视觉的多摄像头办理方案,还是摄像头+激光雷达的方案,哪一个会成为主流,但是我们去看的话,只看算法落地的效果,多摄像头+激光雷达这种多维数据组合,用定制扮装备进行多维数据组合的算法,精度确实得到了更多提升,这便是我们认为越来越多定制化的设备会涌如今数据生产过程中的缘故原由。

第二个趋势,场景定制化。
AI 一个很范例的运用是安防领域,如果你想要生产非常高质量、能够覆盖更多场景的数据或者教材,最高效率去实现这种场景覆盖的方法便是搭建一个专业的场景实验室,然后你去人为的仿照各种各样的光芒强度、角度,以覆盖不同的场景,乃至是长尾场景的数据需求。

第三个趋势,样本的定制化,我们知道本日很多 AI 运用都因此人为中央,人实在是一个非常多元化、多样化的物种,比如我们有黄种人、白人、黑人,比如说我们有各种各样的方言,像普通话、四川话、广东话等等,我们还有很多不同年事段的圈层,比如说年轻人、老年人、儿童。
AI 具有普惠性,如果你想要你做的 AI 做事好这些人群的话,就必须为这些样本考虑,覆盖各种各样的样本。

第四个趋势,事情的协同化,这里面可以给大家分享一些背后的故事,在我们内部,全体数据制造的生态大概会有 30 多个环节,这些环节参与的职员、角色是多种多样的,比如说产品经理、采集职员、标注职员、审核职员、质检职员,以及提出需求的算法工程师、AI 运用的产品经理等,如何让这些人更好地协为难刁难于全体事情协同效率的提升提出了很高的哀求。

第五个趋势,行业背景的专业化,不知道大家有没有理解过 X 光片诊断机器人背后是怎么实现的,如果你要去制作一个能够演习出一个好的 X 光片诊断机器人的教材(数据),你有可能须要副主任医师以上级别的人,才能精确的标注 X 光片里面到底是什么疾病,这种专业的哀求发生在医疗、教诲、法律等非常多的细分领域上。

一个 AI 运用的成功直接关系到一个企业的效率、用户的感想熏染、产品的问题,如果我们说 AI 正在改变这个天下,实在从落地的角度上看,驱动 AI 改变天下的背后是数据正在发生浸染。

Testin 云测一贯秉持着一个独立第三方的行业角色。
在移动互联网时期我们是云测试的首创者。
在人工智能家当化落地的大趋势下,我们以人工智能三要素之一的数据为抓手,成立 AI 数据标注品牌-云测数据。
不到两年的韶光,云测数据已经发展成为海内 TOP 级的数据标注做事商。
现在我们在华北、华东、华南有着自建的数据场景实验室和数据标注基地,目前有着千人规模的全职标注职员团队,来做全体 AI 数据的生态。

除了这些硬件之外,我们也有行业领先的自研数据标注系统、数据采集系统、数据审核流程等等,通过专业的项目经理来把控,每一个数据生产的过程,以担保全体质量是合格的。

除此之外更主要的、也是我们 AI 数据做事的前置底线——数据安全。

第一,不滥用数据,数据交付后清毁数据不留底,绝不二次利用;

第二,不陵犯隐私,与所有数据采集的用户都签订数据授权协议,确保 AI 企业用于演习的数据合法合规;

第三,建立了干系的数据保障机制,如从防火墙的设置、内部信息系统的管护、乃至标准化的流程作业体系等。

这些都是云测数据正在全力在做的事情。

本日有机会来到极客公园,跟大家一起分享人工智能背后数据的生产制造过程,希望给大家分享的内容能让大家意识到除了在 AI 运用之外,人工智能的背后还有这么多跟数据生产、制造干系的故意思的事情。

我们把 AI 运用看作一个个学生,那些老师便是他们背后的算法工程师,而云测数据做的便是生产好的教材,让这些老师更好的因材施教,变成更好的 AI 运用。

感激大家!

本文作者:李昊原

任务编辑:卧虫

图片来源:VPHOTO