阿里巴巴人工智能首席科学家聂再清:语音助手是下一代人机交互进口|2018 T-EDGE_用户_助手
在聂再清看来,AI 新技能正在打造下一代人机交互办法,这也是人把物理天下数字化的人机交互过程,而语音助手则成为当下AI 落地的一个热门场景。
这也阐明了当下智能音箱的风靡。不论是订外卖、拉窗帘、听音乐,语音交互技能已经进入消费的日常生活,据理解,由阿里巴巴推出的智能音箱“天猫精灵”,自面世不到一年(从2017年8月8日正式开售到2018年7月5日),发卖量就打破了500万台,今年双十一期间更是成为了消费电子行业(天猫平台)单品销量冠军。
谈及人工智能领域自然措辞理解技能的寻衅,聂再清表示,寻衅紧张来自自然措辞理解的多样性和歧义性。
因此,阿里巴巴正在根据公开大数据自动天生语料来办理冷启动语料缺少问题,利用领悟知识图谱和用户画像的深度学习算法打造强大的语义理解能力,以及通过深度强化学习方法在与用户的谈天中自动学习最佳人机对话策略。
“语音助手已经进入大家的日常生活,须要各个开拓者参与个中,我们希望搭建大略易用的AI平台,把我们积累的人工智能技能和创新赋能给开拓者。”聂再清表示。
以下为聂再清在2018 T-EDGE 环球创新大会上的演讲实录,经钛媒体编辑后发布:
大家好,我是阿里巴巴人工智能实验室的聂再清,本日给大家分享的题目是“语音助手,下一代人机交互入口”,阿里巴巴人工智能实验室的一个主要义务便是用AI的新技能打造下一代的人机交互办法。
什么是我们认为的人机交互办法?便是人类把物理天下数字化时跟机器的交互过程,在座的可能有一些人经历了刚开始只有用键盘和打算机交互的时期,用dos系统一行一行的输入,人跟机器交互须要学习培训,一样平常人不会用打算机,逐步我们有了图形界面,我们用鼠标点一下就可以,更多人不经由培训就可以利用了。
现在大家正在用手机进行物理天下的数字化。所有人,包括老年人,包括几岁的小孩都可以用手机触达数字天下,并不断数字化物理天下的很多信息。你通过微信或钉钉确认一个好友约请,便是把物理天下的好友关系数字化,你看到帐号上的信息,便是看到你银行的数字天下的信息。这种通过手机的触屏交互办法越来越自然,学习本钱非常底,险些大家都参与进来了,也极大地丰富了我们云真个数字天下的内容。
但这也有一个坏处,很多人都在永劫光地低头玩手机,乃至有一个新词“低头族”来描述这一征象,描述的便是大量的人把大量韶光放在通过手机和数字天下的交互上,这种生活办法不是非常康健的,我们希望一个更康健更自然的交互办法,这个办法便是我们认为的语音助手。
刚开始,智能音箱和语音助手在美国很受欢迎,而现在我们知道中国用户更喜好这样的办法。用数听说一下,去年双十一,我们只用九个小时就卖了一百万台智能音箱,从一年前天猫精灵面世开始不到一年就卖了五百万台。今年,我们已经成为电子消费行业在天猫平台上双十一的销量冠军,智能音箱在双十一期间也超过了手机这个品类的销量。天猫精灵已经成为最受欢迎的中文语音助手(智能音箱),在环球智能音箱市场也是第三(在Amazon和Google之后)。
语音助手已经在进入每个人的日常生活,有很多场景都可以利用语音助手,比如早上起床后开灯开窗帘;收听景象预报以及***;中午可以订外卖,到了晚上睡觉前可以听着最喜好的轻音乐入睡……在一天24小时里,很多的场景都可以帮助到。
如果把语音助手变成大家的第一个交互入口的话,我们须要各行各业的开拓者都加入进来,把他们的内容、做事、根本举动步伐都连上我们的助手。乃至我们在北京的一家养老院都安装了天猫精灵,帮助行动不便的老人用语音掌握家电。老人们都非常喜好,由于能帮助他们做很多事情。
为了让每个开拓者都能参与打造我们的语音助手,我们希望搭建大略易用的AI平台,把我们积累的人工智能技能和创新赋能给开拓者。我们推出了AliGenie这个语音助手平台。这个平台涵盖了一个又全又准的知识图谱,不仅仅是百科的知识,还有优酷的知识,有虾米音频的知识。
我们把通用的百科知识和这些Vertical的知识结合起来,把物理天下的人和物逐一对应到我们的知识图谱上去。基于这个图谱,AliGenie供应四种基本AI能力:语音识别能力、自然措辞处理能力、语音合成的能力、还有用户画像和个性化推举的能力。
任何一个开拓者就可以利用到这四种基本的能力,这四个基本能力之上,我们还供应四种类型的对话:
第一种,业务完成,比如说打开灯和窗帘这种任务,天猫精灵可以帮你通过对话形式办理;
第二种,知识问答,便是你有一个问题,天猫精灵能够把你的每个问题都回答好。
第三种,智能谈天,是我自己提出来的,这个谈天和我们的闲聊有很大的差异,待会儿我还会重点先容;
末了一种,闲聊,是能够接住用户的任何一句输入的谈天做事。
由于韶光关系,本日我紧张先容一下自然措辞理解和智能谈天。
什么是语音助手里的自然措辞理解?举例来说,你问天猫精灵来日诰日景象怎么样,它须要理解用户意图是要理解景象预报,这个事情便是意图识别(intent detection);天猫精灵还须要从用户要求里得到两个参数:一个是韶光一个是地点,我们要把“来日诰日”、“北京”这个韶光和地点作为参数输入给API,这个事情便是槽添补(slot filling);知道了意图和槽值(以及高下文),让天猫精灵决定下一步要做什么,是对话管理(dialog management);以是自然措辞理解在智能助手里面做三件事:意图识别、槽添补、对话管理。
讲讲这三件事的寻衅,以及我们怎么办理的。
大家都知道,自然措辞理解是人工智能里面最难的范畴,它的寻衅紧张来自于哪里?来自于自然措辞的多样性和歧义性。
“来日诰日景象怎么样”有几十万种说法,如果我们没有足够的演习数据的话,你的智能助手没有理解对,用户会认为是智障,大家对它的期待很高,以是我们怎么能让不是机器学习专家的开拓者的人也能够开拓这类运用,这是我们平台要做的事情。
现在我们紧张的办理方案是按照公开大数据自动天生的语料让开发职员标注,用一个基于规则的方法自动办理冷启动是语料缺少的问题,利用领悟知识图谱和用户画像的深度学习算法打造强大的语义理解能力,以及通过深度强化学习方法在与用户的谈天中自动学习最佳人机对话策略。
下面我先容一下我们在研发的智能谈天能力。
作为比拟,先看看什么是闲聊。闲聊是一种基于人类曾经发生过的对话库来回答用户要求做事。在闲聊技能体系里,机器并不须要真正理解用户的要求。闲聊有几个特点,一样平常都是单轮或者很少的轮数,它的好处是任何话题都能接住。闲聊的用途在于接住用户的每一句要求,不让用户由于天猫精灵听不懂他/她的某一句话就反面天猫精灵玩了。
但我不肯望跟用户进行太永劫光的闲聊,由于如果用户跟天猫精灵聊一百轮闲聊,用户还是记不住什么东西,这是在摧残浪费蹂躏用户的韶光。这是不符合我们的代价不雅观,我们希望人能够通过我们谈天能够学到知识,或者变得更加快乐。
再来看看智能谈天。
智能谈天须要要理解用户要求,同时用强大的知识图谱制作谈天的知识点,通过跟用户对话,把我们知识图谱里面的知识贯注灌注给用户。我们希望跟用户聊的越多越好,他会学到很多知识,我们希望用户聊完往后学到知识并逐步变成我们的朋友。
智能谈天是能用深度强化学习来学习对话策略的,由于就算天猫精灵聊错一点,没有多大的关系,用户只是会对这个回答不太高兴(不像任务完成时须要100%准确完成主人的任务)。通过深度强化学习,下次天猫精灵就可能更好地知道到底该当怎么和这类用户谈天。我认为深度强化学习能够运用在智能谈天的对话策略学习这个领域。
总结一下,语音助手已经进入大家的日常生活,须要各个开拓者参与个中,我们希望搭建大略易用的AI平台,把我们积累的人工智能技能和创新赋能给开拓者。以上便是我全部的演讲内容,感激大家。
(本文首发钛媒体,编辑苏建勋整理)
更多精彩内容,关注钛媒体微旗子暗记(ID:taimeiti),或者***钛媒体App
本文系作者个人观点,不代表本站立场,转载请注明出处!