语音交互科普:AI能和你语音聊天吗?_语音_方法
在没有机器之前,人类最早的交互办法便是措辞和动作。如今,在自然交互办法的趋势下,我们又回到了措辞这种交互形式上。
原始的交互办法,便是人与人用措辞、动作、眼神交互,人与物用动作交互。机器刚涌现的时候,并没有人机交互的理念,机器很难操作,须要人去学习温柔应。肖尔斯的“QWERTY”键盘会流传开来便是由于这种字母的排列设计可以降落打字速率,避免快速输入造成按键连杆的相互关涉。
二战期间的研究促进了人因工程的发展,机器适应人类、提高人的效率的理念得到发展。在打算机领域,从命令行界面(CLI)进入到图形用户界面(GUI)是一大打破,随后发展到目前的主流操作办法触控,利用手指在屏幕上滑动点按。语音交互界面(Voice User Interface,VUI)、手势、动作、表情交互,乃至脑机接口,都属于自然用户界面(NUI)。
从载体上分,语音交互以手机或电脑为载体,或以其他硬件为载体。除了这些,在客服、教诲和医疗等行业也都有运用,如客服语音质检、口语测评等。
图1 语音交互界面的形式
如何评价语音交互VUI的效率高还是低?
高效的交互办法便是好的交互办法。人机交互在于提高人的利用表现,从速度、准确性、把稳负荷三个维度衡量。让用户速率越快、越准确,并且占用最少把稳负荷的便是好的交互。我们来看几种情形。
输入文本:效率极高。人说话的速率比打字快,且不须要分心看屏幕,考虑到打字输入也有缺点,语音交互在输入文本表现不错。因此很多产品都会在文本输入处加上语音入口。
支配任务:如果我们想打快车回家,用语音助手还是图形界面的打车APP更快?由于路径短,语音助手的理论速率更快,唤醒Siri并说句话,不须要打开APP再点选。在现有状况下,输入任务随意马虎出错。如果命令措辞涌现偏差,语音助手听不懂你的意思,就会导致任务失落败。我们须要思考该怎么支配任务,是说“我要打车回家”还是“打开XX并打车回家”?如果语音助手三次都听不懂命令,你还会连续考试测验吗?放弃语音支配任务,只要打开APP,找到熟习的入口点击操作就完成了。
输出:比较即时的图形反馈,语音是一种不太合格的输出办法,它过于缓慢、效率低下。由于听觉是线性的,我们只能听完一句话再听下一句,而不能像视觉一样瞬间完成图片加工,也不能在文本间扫描跳过,电话语音做事系统便是这种摧残浪费蹂躏韶光的办法。其余,持续听语音还会花费大量把稳和影象资源,如果客服念完却没有听到想要的内容,重听按0是另一场噩梦。另一方面,我们大部分的信息来自于视觉,但语音办法不能输出视觉信息。
适宜双手被占用的场合
语音交互适宜在哪里利用?双手被占用时,如驾驶、烹饪、游戏等情形。比如,开车时眼睛须要看路,双手握着方向盘,而且车底细况既安静又私密,这种情形下就适宜利用语音交互。其余,在输出层面上,如果视觉通道被占用,听觉通道更适宜吸收紧急和主要的关照。
门槛极低
语音交互的支持者认为,语音是最自然的交互办法。大家都会说话,门槛极低,尤其对付输出困难人群(如视力障碍人群),他们完备可以无障碍的利用语音交互的形式。但是另一方面,习气触控的人群不一定乐意转向语音,对新技能有畏难感情的人群也可能不愿意考试测验语音交互这种“新”的技能。
语音可以通报情绪,但人还不适应和机器交谈
语音由于有音折衷节奏,比较笔墨,更能通报情绪。问题在于我们不习气和机器人或者手机对话,据统计,在公开场合利用Siri的人只有3%。我们默认措辞是人和人互换的办法,或是和猫、狗这种我们认为有人性的动物互换的办法。当人与物进行互换时,更多会采取动作交互。因此人和手机说话时会有很奇怪的觉得,尤其对付东方人来说,生理障碍可能会更大。
为了减少用户的压力,拉近生理间隔,很多智能语音助手会设定自己的“人物形象”。例如Siri高冷又忠实,微软小冰可爱又贫嘴。其余,语音助手大多是女性声音,也是由于女性的声音听起来更加和蔼原谅。在操作过程中涌现问题,如果响起了男性的声音,随意马虎给利用者产生被责备、被批评的觉得。
不过,语音助手也不能太像真正的人。胆怯谷理论认为,对付和人越来越像的东西,我们的好感会上升,但我们厌恶很像人而不是人的东西,例如僵尸。从胆怯谷的理论来看,我们可能会害怕逼真的语音助手。
图2 胆怯谷
不适宜在公开场合利用
语音交互不适宜在公开场合利用,尤其是图书馆、办公室这类安静的场合。
身份识别问题。在汉堡王的一则视频广告里,售货员末了凑近屏幕,说“OK google, what’s the whoppers?”。“OK google”是安卓手机和Google Home的唤醒词,用户会创造在自己没有下达命令的情形下,设备已经启动并搜索了皇堡,这是设备短缺身份识别系统造成的。为此有产品推出了声纹识别系统以保障支付安全问题,至于声纹验证的可靠性则是其余一个问题。
图3 汉堡王的视频广告
隐私方面也是如此,比较起屏幕,公开场合的输入和输出对话更随意马虎被听到。敏感的金融、医疗和私人信息风险更大。
场景剖析
总体来说,语音交互至少须要知足噪音低和私密两条哀求,在浩瀚的场景中,车内和家里是知足哀求的,加上手机上的移动场景,共3大场景。Mary Meeker在2016年的报告也指出,美国语音利用的紧张场景是家里(43%),车上(30%),路上(19%),事情仅占3%。
语音交互发展难点
语音交互系统发展的历史并不短,早在1952年,贝尔实验室就开拓了能够识别阿拉伯数字的系统Audrey。1962年,IBM发明了第一台可以用语音进行大略数学打算的机器Shoebox。
图4 IBM的Shoebox系统
在发展了半多个世纪后,语音交互仍没有达到成熟运用的水平,碰着的困难贯穿开拓到利用流程。
一套完全的语音交互系统有三个范例模块,语音识别(Automatic Speech Recognition,ASR)将声音转化成笔墨,自然措辞处理过程(Natural Language Processing,NLP)将笔墨的含义解读出来,并给出反馈,末了通过语音合成(Text to Speech,TTS),将输出信息转化成声音。
图5 范例的语音交互系统模块
远场识别难题
第一个难题是获取语音的问题。语音质量高的条件下,才能有较好的语音识别结果。有些公司流传宣传自己的语音识别率达到了95%乃至99%,但其条件条件每每是声源间隔很近、环境特殊安静、说话人的普通话特殊标准,而非日常的运用处景。
获取用户语音,根据间隔分为近场识别和远场识别两种情形,后者难度更大。
手机上的语音交互是范例的近场,间隔声源近,语音旗子暗记的质量较高。另一方面,采集语音的交相互对大略,有触摸屏赞助,用户通过点击开始和结束进行旗子暗记采集,担保可以录到用户说的话。
远场语音交互以智能音箱为代表,声源远,不知道声源详细位置,环境中存在噪声、混响和反射。单麦克风无法知足哀求,须要麦克风阵列支持。用户可能站在任意方位,被语音唤醒后,须要定位到声源位置,向该方向定向拾音,增强语音并降落其他区域和环境的噪声。
图6 远场识别示意图(来源:雷锋网)
语音识别精确率
实际事情中,常用的指标是识别词缺点率(Word Error Rate)。微软语音和对话研究团队卖力人黄学东最近宣告微软语音识别系统缺点率由5.9%进一步降落到5.1%,可与专业速记员比肩。进步来自于两方面,一是技能,包括隐马尔可夫模型、机器学习和各种旗子暗记处理方法,另一方面是弘大的打算资源和演习数据。
语义识别
如果你和语音助手进行过对话,会创造其语义理解还勾留在固定模式识别的套路上,根据用户话中特定的词做出反应,不一定能给出精确的回答。
约翰·希尔勒提出过“中文房间”的思想实验,一个不懂中文、会说英语的人在一个封闭房间中,房间里有一本英文手册奉告如何处理相应的中文信息。用中文写的问题从窗户递进房间里,这个人对照手册进行查找,将对应的中文写成的解答写在纸上并递出去。房间外的人可能会以为这个人很懂中文,实际他一窍不通。演习机器来理解语义类似于这个过程。通过演习,我们让机器的反应靠近于能够理解,但无法像人类一样真正理解措辞。
措辞是人和人之间互换的工具,某种程度上适宜人的认知系统,如何期待机器更好的理解我们?
目前来讲,碰着的问题至少有分词、歧义和未知措辞处理。中文不像英文单词有空格分开,而且歧义性高,对AI有更高的哀求。例如“南京市长江大桥”就可以分成“南京市/长江大桥”和“南京市长/江大桥”两种,“鸡不吃了”有多种含义,和Siri说“打开饱了么外卖”,在它没有学过“饱了么”这个单词的情形下,它将如何处理?
多轮对话问题
我们以为语音助手很蠢,有时是由于它违反了人类对话的原则。人类对话看似大略,但会根据对方的背景和自己节制的信息,调度对话内容,高下文之间也会有呼应关系。但是,现有的很多产品,其对话短缺关联性,语音助手不理解高下文背景,只能进行单轮对话,看似进行的多轮对话实在也只是多个单轮对话的组合。
“屈曲”带来的一是不自然,二是增加任务难度。比如当你问语音助手,“来日诰日的景象是什么?”它说下雨,再接着问“后天呢?”,这时它并不明白提问的是后天的景象,只能再完全地问一次“后天的景象是什么?”。
不才面这个对话里,小冰一下子说阴阳师是游戏,一下子是电影,并没有对话的影象。
图7 小冰没有对话的影象
语音交互设计规范
由于措辞尤其口语的形式不固定,变革很大,VUI的交互设计和GUI截然不同,更加细致繁琐。亚马逊已经给开拓者供应了成熟的交互设计规范。
语音交互设计至少可分为几步:首先建立功能目的;其次撰写脚本,即用户和系统如何对话;第三步是制订流程、用户利用路径等,还须要定义技能的构造,包括完成一个功能须要哪些参数、用语有哪些变革,例如对付同一个功能,用户可以说“景象怎么样”也可以问“表面下雨吗”。
远场语音交互产品的冷启动
远场语音交互产品存在冷启动周期,只有积累了一定数据才可以更好提升产品体验,但如何提高销量、积累数据是产品启动时须要思考的问题。如果希望语音交互产品可以成为平台,千万量级是基本门槛,如果Echo在今年的销量可以达到估量的两千万台,基本上有了足足数据,有成为平台的希望。海内一些模拟者利用节日匆匆销的模式,例如双十一天猫精灵99元的售价,卖出了100万台,希望通过这种办法进行数据的初步积累。
缺少持续利用动力和核心场景
新鲜劲过去后,很多人会对语音交互失落去兴趣,触控仍旧是紧张的交互办法。Creative Strategies的数据创造,97%的人在两周韶光内会对Alexa的新功能失落去兴趣。Voice Lab的数据创造,62%的安卓用户很少或者偶尔利用语音助手,这一比例在iOS用户上是70%。目前,语音交互缺少只有其才能实现的核心功能,纵然亚马逊的Echo,它最多的用场仍旧是听歌,短缺核心竞争力和不可替代性。
问题谈论语音交互是否会成为主流交互办法
笔者的见地是,就像触控没有取代鼠标键盘,语音交互不太可能成为主流的交互办法。交互界面本来便是多模态的,语音交互将丰富现有的交互形式而不会取代其他。如前文所述,语音交互不能办理所有问题,只是在特定的场景可以发挥浸染。
伴随语音的多交互通道是不错的选择,例如语音和触控结合可以提高准确度,语音和视觉结合,实现语音输入加视觉反馈,或者加上手势等。
是否须要追求语音交互的纯洁性
Echo团队认为,语音是最自然的交互办法,因此坚持设计语音交互,但语音输入和视觉输出的模型已被证明其成功性,我们在手机上利用的语音交互模型便是如此。新品Echo Show也装上了屏幕,可以显示视觉信息了。所以是否有必要坚持纯粹的语音交互模型?答案彷佛已经很明显。新问题是,如果Echo加上了屏幕,用户会认为它是音箱还是平板?
图8 加上屏幕的Echo Show
语音交互的定位
实质上,语音交互许可儿通过语音的办法完成任务,能通过语音完成的,触控也可以,Siri可以做到的,Echo也可以,做不到的大家都做不到。以是语音交互能够完成什么独占的任务以表示它的代价呢?
VUI vs. CUI
语音设计师Cheryl Platz在她的Medium上反复提及一个问题,VUI还是Conversational UI?
语音交互界面是基于单独的任务,它的模式是大略的“下命令——完成任务”,然而这不是自然的对话,我们须要思考如何下命令,间隔对话太远了。如果要朝着CUI的目标,语音交互必须更加智能和流畅,许可通过真正的对话完成任务,像和真人说话一样。
隐私问题
如果语音助手要更好用、更智能,就须要不断网络用户的信息。以是我们是否须要语音助手改变自己的反应?如果语音助手目的便是商业的,那么我们是否信赖它并供应信息,从而让它更理解我的喜好?
另一方面,语音助手是否安全?通过唤醒词唤醒的语音交互产品会保持待机,从环境中获取声音,这种机制可能被利用。在一则新闻中,Echo被破解并成为了一个24小时窃听器,还有连接办法,德国禁止发卖的一款儿童语音玩具“My Friend Cayla”,其蓝牙连接就被证明是不屈安的,儿童与玩具对话的语音可能被第三方获取。
图9 儿童语音玩具My Friend Cayla
语音交互界面的测试办法
和普通产品的研究方法共通,可用性测试、访谈等方法依然适用于研究语音交互系统。测试VUI时可以特殊把稳一些地方,例如用户的反应,成功率,停顿或者失落败等等。有一些特定指标可以用于评估,例如速率准确度、用户付出的认知努力、清晰易懂度、系统友好程度和声音质量等。
下面先容一个有趣的语音交互界面测试方法:Woz法。由于语音交互系统本钱较高,在系统开拓前,通过Woz(Wizard of Oz)的原型测试创造问题,本钱很低。由一名研究职员扮演Wizard,一名普通研究职员帮忙,用户操作后,由Wizard在暗处手动播放反馈。
图10 车内Woz测试(来源:《Designing Voice User Interfaces》)
语音交互仍须要发展,技能成熟须要韶光。但它的涌现意味着我们可以用更多办法操作设备、通报信息,我们离空想的交互界面更近了一步。以上对语音交互做了大略的总结,有疏漏和想法不成熟之处,欢迎互换示正。
参考资料:
Cathy Pearl. Designing Voice User Interfaces. O’Reilly Media, 2016Clifford Nass, Scott Brave . Wired for Speech. MIT PressCheryl Platz. The Narrowing Rift: Voice UI and Conversational UI. Medium: Microsoft DesignAmazon Alexa:Voice Design Guideline. Amazon极限元,一文读懂智能语音前端处理中的关键问题,雷锋网作者:汪梅子,网易产品发展部用户研究员,目前对接智能硬件的用户研究事情。喜好自己不知道的事情,在用户研究的路(树)上连续发展着。
本文作者@武慧新,由@用盐有点咸(微信公众号:用盐有点咸) 授权发布,未经容许,禁止转载。
题图来自unsplash,基于CC0协议
本文系作者个人观点,不代表本站立场,转载请注明出处!