不过,任何行业的创业之路都不可能一帆风顺,人工智能创业者和企业都必须面对诸多寻衅与未知的困境。
如何才能尽可能避首创业道路上的沟壑与弯路,若何充分利用有限的资源快速相应需求,在激烈的竞争中赢得上风?想要回答这些问题,一位资深创业者的经历无疑能为我们带来宝贵的履历作参考。
为此,InfoQ 大咖说栏目采访了爱数聪慧创始人和 CEO 张晴晴博士,以人工智能行业长达 5 年的资深创业者身份,为大家分享了她在这一行业中积累的履历与不雅观察思考成果。

从学术研究到创业实践:一位创业者的心途经程

一位女博士在人工智能领域创业的那五年_数据_创业者 智能问答

2016 年,在中科院担当副研究员的张晴晴选择离职创业,创办了爱数聪慧。
张晴晴回顾,当时最主要的驱动力是学术领域在进行人工智能研究事情时非常缺少数据资源的支持,于是张晴晴决定从做模型与算法的角色,转变成为全天下的 AI 事情者供应底层数据做事能力的角色。

这样的转变对付象牙塔出身的张晴晴而言,无疑是巨大的寻衅。
之前的十一年间,张晴晴一贯身处研究环境,更多打仗的是个人性子的事情任务。
但进入创业阶段后,创业者须要建立商业逻辑、建立团队并构建协作氛围,还要更多地将目光转向市场与行业趋势等方面,而这些思维转变都是不可或缺的。

创业者须要做到的两件事

张晴晴从多年的研究者经历中,收成最大的便是建立了一套完全的科学思维体系。
比较之下,创业之路更磨练创业者的学习能力与创业初心。
作为公司的引领者,CEO 一定要明确企业的发展方向,也便是公司的发展计策。
创始人的思维高度每每决定了企业的发展高度,以是创业者须要持续思考、快速迭代,才能不断提升企业成功的几率。

创业者还要认识到,创业不是一个人的事情,而是一群人的事情。
创业者须要让伙伴们理解大家须要做什么事情,创造每一个人各自的能力与特长所在,并把自己的知识通报给他们,还要确保全体团队向同一方向努力。
在创业过程中,经费不敷等客不雅观缘故原由也曾导致很多意外事宜,在张晴晴看来,团队共同战胜困难的过程也是创业必经之路。

此外,作为 AI 领域公司的创始人和 CEO,张晴晴在不雅观察行业、决定公司方向的同时也要立足于技能的理解和认知层面,须要知道 AI 的底层事理是什么、未来会若何发展、存在哪些阻碍以及如何去打破等等。
与此同时,创始人也要以团队做事者的角色,在大家碰着困惑的时候站出来帮助大家办理现在的问题。

给女性创业者的建议

商业天下男性占比很高。
身为女性创业者,张晴晴表示自己很少思考自己的性别、年事等标签。
对付她来说,如何更好、更快完成创业目标,为社会创造更大代价才是关键所在。
她也建议其他女性在创业或扮演主要角色时忘掉自己身上的一些标签:

由于很多事情,你没有考试测验就见告自己说不可以,那就真的没有机会了。
抛弃社会给你定义的东西,专注在事情本身,你会创造通过这样的一种思维逻辑,这个天下都会为你而开启。

在你决定做这件事情之前,不用给自己设太多边界。
只要专注在这件事情上,迈开这一步,便是最大的成功。
人的潜力无穷无尽,只要你真有足够的毅力和定力去做,你会创造很多你过去想不到的目标可能有一天都能实现。

爱数聪慧成立五年来,张晴晴一贯对付创业抱有敬畏之心,时候思考每一个环节要若何去做才能更好达到目标。

身处 AI 这样高速进化的行业之中,创业者最主要的一点便是坚持积极学习的态度。
创业者不应该在任何时候认为自己该当停下脚步。
所谓活到老,学到老,张晴晴认为这不仅该当是创业者具备的素养,也该当是希望活出精彩人生的每一个人都要有的态度。

如何应对创业道路上的问题与寻衅

谈到创业道路上办理的问题,张晴晴首先提到了公司组织构造的转变,又从业务角度分享了自己的不雅观察。

在创业早期,团队每每没有细致的分工,但当公司逐步进入到一定规模后,管理者就要开始做职能拆解,明确分工职责。
在公司很多年的老人可能对付这个过程会有些不适应,新来的小伙伴也须要逐渐融入这样的环境,因此会有一定的寻衅。
但职能拆分是持续的过程,随着规模的扩展一定会连续下去。

对付公司业务的部分,爱数聪慧的企业定位是为所有人工智能企业供应底层数据做事。
数据是未来的原油,但在不同的运用处景下,数据的提炼办法与规则也有所不同。
过去五年来,爱数聪慧逐步形成了一套提炼体系,搭建了一套数据处理系统,并在今年正式商业发布。
张晴晴希望把爱数聪慧过去 5 年所沉淀下来认知凝集在这套系统里面,赋能给更多须要用到数据的企业,帮助他们在业务演进过程中通过数据处理和迭代、各种标签体系和预测剖析等工具更快提高。

人工智能:行业正在经历若何的变革

对话式 AI 是人工智能领域的终极问题之一。
对话 AI 的目标是让机器像人一样和人类自然互换对话。
在过去,人机对话交互紧张局限在一些特定场景,涉及确定的动作。
但人类非常希望能够按照自己想要的表达办法去跟机器互换,这样的需求催生了对话式 AI。

以汽车智能座舱为例,司机要见告导航系统自己想去哪个地方,可能的表达办法是多种多样的,系统没有办法完备预测每一个人的说话办法;同时人类还有口音和语气的差异,这些在对话式 AI 里面都是非常范例的难点,也是须要行业在未来几年中逐步办理的问题。

在办理这些问题的过程中,AI 专家须要花费大量韶光采集数据。
由于人工智能是靠数据驱动,数据洗濯采集的好坏直接影响了建模性能,决定了预测效果。
从海量数据里挑选出想要的数据,就像在浩瀚海洋中找寻一个贝壳,是非常耗时耗力的事情。
未来,随着数据生产和现实生活中涌现的数据越来越多,这个问题就会变得越来越突出。
因此行业须要一套更高效的数据处理工具,也须要建立数据处理的标准和体系,才能不断提高数据处理过程的效率。

在数据的网络过程中,最主要的一点便是理解数据的利用场景。
根据企业须要办理的问题来决定数据处理的重点和方法。
数据处理过程结合了机器和人两者的上风,这种人机协作的办法也须要行业思考和深耕。

目前,人机对话模式还处在比较机器、呆板的低级阶段。
张晴晴认为这是比较系统性的问题,不但是单点问题。
站在数据角度来讲,目前人机交互的底层数据积累还远远不足。
比如说人们在用中文互换,但是每个人的用语体系都是有差异的,而机器在理解这种差异时会显得呆板,不足灵巧。
要办理这个问题,张晴晴认为从业者须要将思考维度放的更长远一些。
比如认识一个人须要从很小的时候就开始在他的身边,长年累月才能知道他的性情、喜好,人们很难在很短的韶光对某人构成很清晰的认知。
以是在未来,人机交互要进一步发展可能须要某种虚拟的陪伴机器人,跟随主人一段韶光后才能对主人有全面的认知。

标注员:新时期的“数据民工”?

很多人认为智能化标注平台上的数据标注员像是“数据民工”,但张晴晴并不认同这样的说法。
在她看来,所有从业者严格来说都是事情者,而数据标注员是把他对付这个天下的认知转化成机器可读取的 0、1 等确定的数字。
数据标注员的事情是连接人类所在的真实天下和打算机所在的虚拟天下的连接点。
随着须要处理的数据类型以及待办理问题越来越多样化,数据标注员须要节制的知识体系也越来越丰富。

以智能医疗系统为例,这个别系可能须要一些主任医师和专家才能标注,他们标注出来的每一个结果都代表了他们积累了几十年的履历。
其他领域里也有类似的情形,比如金融股票方面的会议场景,就须要标注员具备相应的背景知识。
如果标注员对这些领域不熟习,那么标出来的东西可能完备是错的。
从这个角度来讲,张晴晴认为,把数据标注员称之为数据专家会更得当。

AI 如何帮助提升数据平台效率

数据处理是须要人和机器协同完成的事情。
人力处理数据最大的问题便是不同的人对同一件事情的认知也会不同,而且行业须要处理的数据量越来越大,完备靠人工的办法来处理无疑也无法跟上 AI 落地的发展节奏。

在这种情形下,行业该当将一些最根本的标注能力逐步沉淀到系统层面,让系统帮助人工更快完成标注事情。
大略来讲,一些初步的标注事情让机器去做,人类则卖力审核与校正,这些校正结果也会反哺系统,帮助系统更快迭代。
但社会每天都会产生新生事物,系统也要处理新的事物和数据,这部分还是须要靠人来建立连接点,标注员连接起虚拟天下和真实天下,尽快将知识沉淀到系统里面来做迭代。

AI 行业的一些前沿动向

在 AI 家当发展早期,从业者的终极目标便是构建大量的数据。
不过,当前通过一些技能迭代,从业者在一些特定场景中也可以通过小数据得到相对精准的结果。
AI 发展的另一个重点是可阐明性。
缺少可阐明性的情形下,从业者会不知道到底是哪些数据对模型供应了最根本的帮助,这会导致数据资源的摧残浪费蹂躏。

联邦学习也是 AI 领域的一大研究方向。
通过联邦学习,所有人各自演习的模型就有机会共享,实现共同快速的迭代和优化。

从家当赋能的角度来看,AI 实质上是一种工具,可以赋能到各行各业。
比如说在法律方面,有公司在做聪慧法庭、焦点争议的快速剖断,或者一些择要记录事情。
张晴晴表示,AI 可以真正用于各行各业,只要在相应领域里设定好标准、定义好目标是什么,就能得到比较匹配的数据,得到很好的赋能成果。

数据安全与隐私保护对 AI 行业的影响

在 AI 的落地过程当中,数据的隐私保护是非常主要的关键环节。

AI 行业的初心是希望社会变得更美好,那么在人们贡献数据来加强与机器之间的理解、沟通能力的同时,一定要确保数据的安全性,确保数据的利用经由充分授权。
从业者要严格区分数据的利用权与所有权,涉及到个人隐私的部分还须要做数据脱敏。
随着干系法律法规的健全完善,科研事情也在这一领域不断取得进展。
在未来,数据的合规性和技能迭代该当并驾齐驱。

AI 行业未来须要战胜的寻衅与发展趋势

在现有框架下,AI 行业未来须要办理数据和算力这两个人工智能的底层问题。
在追求更多数据与算力的过程中,行业还须要战胜能源花费问题,保护地球环境不受毁坏,实现可持续的发展道路。

从行业宏不雅观角度来看,对话式 AI 一定会不断提高,这是行业的终极目标。
但在这个过程当中有很多问题要去办理,行业须要综合考虑能源耗费、人力物力投入、数据合规性等等问题,终极才能一步一步迈向更美好的未来。

MagicHub 开源社区背后的思考

2021 年 4 月,爱数聪慧发起的 MagicHub 开源社区正式上线。
之以是选择以开源的办法跟大家共享爱数聪慧的研究成果,张晴晴也有自己的思考和理念。

首先,MagicHub 是爱数聪慧从数据集和数据处理工具这两个维度打造的开源项目。
纵不雅观环球,更多的开源项目集中在算法系统层面,而这些算法须要由底层的数据去驱动。
但行业还没有很多得当的数据能够用于 AI 演习。
张晴晴表示,很多试图考试测验进入到 AI 领域的事情者常会自己***开源工具,希望能自己跑些 AI 算法,但创造在这个过程中没有创造得当的数据来完成模型迭代,以是他们对 AI 的认知也会勾留在比较浅的阶段。
数据的开源办法能够让更多从业者开始考试测验玩儿 AI,产出更好的成果。

目前,MagicHub 开源社区成员有来自国内外的 AI 研究者、科研机构等,他们会主动到这个开源社区里***和分享、贡献数据。
MagicHub 也是很好的学习社区。
MagicHub 供应了中英双语的版本,方便海内研究者更快上手学习利用。

其余,张晴晴建议从业者在学习理解各种技能时,可以去关注一些顶级会议,读这些会议干系的组织者、揭橥的文章,通过这种以点带面的办法,从业者就可以快速理解一个细分领域的发展进程,更好地理解技能现状背后的演进逻辑。

结束语

如今,爱数聪慧成立已经有 5 年韶光,张晴晴自己也在 AI 领域走过了 16 年。
张晴晴希望爱数聪慧一贯希望做一家专业的数据公司,做出更高效的数据处理系统。