一个音箱的前世今生_音箱_智能

2024-10-19 00:53:20 云服务

一个音箱的前世今生_音箱_智能云服务

智能音箱实际上属于智能语音技能，其核心非常简要——要让机器在语音对话这一环节拥有近似于人的能力。

- 这统统都始于2014年

2014年11月，亚马逊的网红智能音箱Echo出世，除了周身环抱的扬声器，它还搭载的七个麦克风，用以吸收命令，颠覆了人们对传统音箱仅仅作为扬声器功能的刻板印象，自此，将智能语音交互技能与家用小型音箱相结合的idea开始进入人们的视线，并在数百家互联网公司中间掀起了腥风血雨般的战役。

Echo之后，国内外各大互联网公司先后入局智能音箱行业：Google，Apple，百度，腾讯，阿里巴巴，京东……从此，音箱行业不在是Sonos这类音质追求者的专利，转而成了互联网公司的较劲场。
只不过到本日为止，在这场较劲中，还没有人超过最初的鼻祖级玩家：亚马逊。

2018年环球智能音箱发卖市场份额

作为智能音箱品类首创者，亚马逊不断地优化音箱产品新能，持续创新。
从场景和形态出发，陆续推出小巧低价的echo dot，带屏音箱echo show、闹钟音箱echo spot。
既有匆匆销爆款铺量，又有高端品类防守，具备了高、中、低三个档位完善的产品矩阵，各型号累计销量在3千万以上，是目前唯一销量破千万的智能音箱厂商，引领环球智能音箱市场。

本日，就让我们以Echo为例，探究一个智能音箱的来龙去脉，前世今生。

- 究其根本便是个大略的哲学问题

面对一句“感激”，我们人类要此对做出回应，大致要经由这样一个过程：

由此可知，无论人或机器，要与人进行交互，实质上都是要办理一个基本的“是什么、为什么、怎么办”的哲学问题。
这也就回到了人工智能的终极定义：让机器像人一样思考。
要达到这一效果，就远远不是教会机器感激、不客气这么大略的问题了。

现在险些所有国内外的智能音箱仅局限于“感激不客气”“对不起没紧要”“再见再见”这样的单轮对话，大多数表示在你给它一个大略命令，它去完成，如：开灯，放音乐，大点声，开热水器等等（听说若琪的智能音箱可以支持最低级的多轮对话，笔者没有亲自验证），如果你还须要它做其余一件事则须要重新唤醒，这样的交互是极其不自然的，作为开启未来语音入口天下大门的钥匙，智能音箱追求的远不止于此。

- 完美的对话恐怕还得等一阵子

你如何定义一次完美的对话？

首先便是得连贯吧，你来我往，一句接一句，无需过度重复，这一点，现在的智能音箱做不到。
我们刚才已经说过了，现在的智能音箱仅支持单轮对话，如果你须要Echo帮你开灯，你只需说：”hey Alexa, turn on the light please.”（Alexa不支持中文）但如果你放工进了门，想让Echo帮你开灯，开空调，开热水器，拉窗帘……你须要说：”hey Alexa, turn on the light please.”” hey Alexa, turn on the airconditioner please.”” hey Alexa, turn on the water heater please.” ”hey Alexa……”“hey Alexa……”“hey Alexa……”嗯……我不知道你是咋想的，反正我甘心自己做这些事儿。

其次，间隔不能成为你俩互换的阻碍吧，这一点，现在的智能音箱还是做不到。
如果你想命令Alexa帮你干点啥，您得劳驾走到人家视线范围5米只能，要不没戏。
让人家帮忙关个灯还得“登门拜访”，真是求人不如求己。
而且你跟它说话的时候最好不要随意移动，假如一不留神走出去5步，那就不好意思，统统从头开始。

然后，环境限定不能太严苛吧，不好意思，现在的智能音箱很严苛，它们受不了吵。
也便是说你在呼唤你的Alexa之前要先把电视关了，要不人家是不会理你的。
就算你侥幸得到了它的把稳，你也会惊奇的创造，它不但是理你，连电视上的***甲说了句什么他也会跟人家互动。

末了，你互换的工具还涉嫌地域歧视，你以为还有的聊吗？如果说Alexa只认英语这一点还情有可原，那叨教支持中文的Siri不认方言这怎么说？中国56个民族，上百种方言，它只认普通话，你说它交的到朋友吗？好吧，实在原形是它确实能力有限，只听的懂普通话。
但这确实成为了光大外地同胞利用Siri的一大障碍。

综上，现阶段的智能音箱在多轮对话、远场交互、降噪处理语义解析等方面还存在很大的问题，间隔真正成为下一代语音入口、家庭小助手，以及实现一次完美的对话，恐怕都还要等上一阵子。
但可喜可贺的是，个中有一些问题间隔被办理只是韶光的问题，比如要实现远场识别只需结合大量基于大数据演习、针对远场环境的声学模型，办理识别率的问题；方言识别方面须要采集只管即便多差异化的语音，对机器进行演习等等，我们可以看到这些国内外智能音箱玩家都在努力的往精确的方向走去，问题便是谁会更快了。

- 有些问题没有那么随意马虎

如果说上述的寻衅对付现阶段的智能音箱都只是小case，那么下面这个终极大boss就不是那么随意马虎占领了，那便是措辞的ambiguity（二义性）。

我们来用一个大略的例子解释这件事情：

“At last, a computer that understands youlike your mother”

就这样一句英文，有几个意思？

如果你有一定的英语知识根本，那你会琢磨出来，最合乎逻辑的阐明，是意思A：

它理解你就像你的母亲理解你一样

但是，你会创造意思B也完备符合语法逻辑：

它理解你喜好你的母亲

同样的，虽然画风很怪，你不得不承认，C也是对的：

它理解你就像理解你的母亲一样

就这么一句话，我们以人脑都无法对它蕴含的真正意思达成见地统一，何况机器。
由此可见，要想让智能音箱真正发展成梦想家门心中通民气、懂人事的样子，还须要很长一段韶光。

- 可视化、物联网和高品质做事是未来发展趋势

在可预见的短期内，智能音箱会向什么方向发展呢？

从外不雅观看，未来的智能音箱很有可能与屏幕相结合。
最好的例子是去年八月Facebook刚刚推出的portal系列产品：Portal 和Portal Plus的产品，是专注于***谈天的智能显示器，也因此Facebook品牌发卖的第一批硬件产品，用户可用于呼叫其他Portal用户。
它可以通过Spotify和Pandora播放音乐，也可以从Facebook Watch播放***；在语音助手方面，Facebook为Portal设计了全新的语音助手，用户可以通过“Hey Portal”关键词，唤醒语音助手Josh。
同时，Portal也支持亚马逊的语音助手Alexa，可以通过Alexa唤醒Spotify、Pandora、iHeartRadio等运用。
将智能语音助手与屏幕相结合的好处在于提升了用户的利用体验，也增强了产品的存在感。
但这种形式的产品最令人担心的地方在于对隐私的保护，这也是Facebook和其他智能音箱厂商目前面临的最大问题，也是可视化智能音箱大规模生产前需超过的鸿沟。

从内容来看，智能音箱有望成为物联网的最大入口。
得益于语音交互和内容做事上风，智能音箱仅凭用户一句话就可以完成***播报、声控购物、收听电台、预报景象等日常任务。
随着人工智能技能的成熟和IOT生态的完善，现在智能音箱已经可以掌握浩瀚其他智能设备，成为不同品牌、不同产品之间最佳的沟通桥梁。
现在智能音箱厂商要做的便是尽可能多的把智能音箱与更多地智能设备相结合，并在内容端不断创新，推出更多适用于智能音箱的内容呈现办法，解放双手指日可待。

最主要的是办理行业痛点。
当然了，更多的智能音箱产商会把把稳力在集中在办理我们上述的几条行业痛点上面，尤其是对利用体验影响很大的近场识别、单轮对话等问题，毕竟，智能音箱的出发点在于更好的做事用户，解放双手，那么提升做事质量一定是智能音箱发展的终极目标。