为什么现在的人工智能助理都像人工智障？（偶得一篇很棒的文章）_用户_都是

2024-12-11 17:53:03 智能问答

1）智能助理属于对话式做事

为什么现在的人工智能助理都像人工智障？（偶得一篇很棒的文章）_用户_都是智能问答

两者的边界不是很清晰，智能助理的功能在前面阐明过了；而“对话式做事（conversational service/commerce）”——这是包含智能助理在内的多个产品形态的统称，核心特点是：

对话式：人机交互的办法由图形化交互（GUI-Graphical User Interface）变为以对话作为交互办法（CUI-Conversational User Interface 业界暂时还没有定义，这是我自己瞎编的），便是用说话来代替触摸或者鼠标，操作打算设备。
做事：供应做事，办理问题都算，如订机票，购买礼物等。
不包括信息查询（如景象）。

Facebook M, 真人和AI结合的做事

前年（2015）起来的这一波对话式做事在硅谷有多火？看看创业团队增长的数量就知道了：2015年的时候有129个类似的项目涌现，而14年的时候才42个。

Tracxn Report：Conversational Commerce

在各种科技博客上，对Conversational Commerce的谈论也非常热烈，尤其是在medium.com上有大量的磋商。
基本的不雅观点便是”对话式的交互将会成为下一个风口，大家赶紧上啊！
“。
截止到2016年6月的时候，在Producthunt上标记为对话式做事（ConvComm）的有一百多个创业项目。

除了智能助理以外，还有很多类似的观点如digital agent，bot，service bot, chatbot，P2P的电商。
比如Operator现在用真人专家帮用户做消费决策，在过去考试测验过用bot/AI但可惜达不到效果，或者magic模式，完备是靠”真人帮

2）智能助理该当办理做事需求

巨子的人工智能助理基本都已亮相了：

Facebook MAmazon EchoGoogle Assistant, AlloApple SiriIBM WatsonMicrosoft Cortana

以上智能助理的做事范围大都是在信息检索，帮助用户得到资讯。
绝大多数的内容是不牵扯“推理”的查询类信息做事。
比如：

如果用户问到在根本信息以上，一旦牵扯推理的问题，就无能为力了。
比如：

来日诰日这个景象状况会造成航班耽误么？附近的星巴克可以用支付宝么？我什么时候该买苹果的股票？

利用体验方面，这些助理的做事范围覆盖面基本跟当前的所有引擎一样。
在设计逻辑上，基本都是基于用命名实体识别来代替打字输入关键词然后返回检索结果SERP。
而信息检索，离人们要完成的做事需求有很大的差异。
就彷佛viv.ai的联合创始人Dag Kittlaus 说的，当初他创建siri的时候，是想要重新寻衅移动做事，而不是造一个chatbot。

Dag Kittlaus（中间）

除此以外，巨子的助理与其关联的生态产生操作的关联。
比如SIRI对iOS和macOS的操作；Cortana对windows的操作；echo春联系关系着的智能家居设备的操作等等。
此类操作的一个特点，是对结果非常的确定，涌现个性化选择范围非常的少。

另一方面，对付创业项目而言，由于不具备类似的生态和硬件入口的条件，大都定位在资讯和做事上。
我们选择Producthunt当中排在最前150位的项目进行剖析，个中高达70%的项目定位都在2C的个人助理（agent）上，个中大部分都想做切入做事，包括垂直类的和多任务的。

这些助理做事当中有23.1%是专业类型的做事，紧张是在医疗和理财方面。
而剩下来的76.9%的助理干的最多的活儿是生活上的综合帮助，出行安排，日程管理，购物订餐厅等等——这一类是坑最大的地方——特殊是那些试图把生活上的各种做事都打包进去的产品。

Producthunt上面 69.7%的对话式做事都是智能助理产品（但并非所有都具备AI）

－人工智能助理的潜力－

1）移动红利的结束，行业须要新的增长点

很多迹象都指向同一个结论：移动互联的高速增长已经饱和。
比如用户已经不再乐意***新的APP。

qz (based on comscore data) & statista

2016年1月有超过5万个新的APP被提交到了appstore，但是在美国市场有65%的智好手机用户在一个月内***新APP的数量为0，下了1个新APP的人占8.4%。

2015年中到现在，在海内2C市场中，险些找不到一款真正能爆发并留存的移动产品。
对付移动开拓者而言，能放首屏的高频运用早就挤不进去了。
而且很多中低频的做事，并不是最适宜用app来承载的。
比如订生日蛋糕，作为商业其代价一贯存在，能通过信息化的办法来办理获客或者能效问题么？宏不雅观来讲肯定可以，但是开拓一个APP则会面临用户获取和利用本钱高，难留存，用户难创造等等障碍——这些问题，都让开发者疑惑要不要做APP，特殊是在最开始的PMF核心逻辑还没有被验证的时候。

但创业者的激情亲切和投资人基金里的钱都不能等！
于是大家憋着这口气四处找风口，或者又有若何的产品形态可以把商业形态再颠覆一次，好比APP颠覆了网页，宏不雅观上有没有新的产品形态可以再来一次？乃至运气更好点，乃至开拓出以前没有被耕耘过的维度？

2）对话式做事具备新的增长点的潜质

回顾过去，最大的几次浪潮基本都伴随着一个规律：核心技能（软硬一堆）的涌现和整合，带来全新的人机交互办法，在此根本上大量的商业运用应运而生。

从90年代开始，人际交互的三个变革

比如2007年末移动互联开始，核心驱动的硬件是触摸技能、各种sensor的成熟以及整体打算能力的提升和小型化；软件方面则是iOS&Android的颠覆式涌现。
软硬结合创造出完备颠覆过去的触摸操作的体验，并使其称为真正可用的人机交互办法——让图形化界面的输入工具，从键鼠时期超过到了更intuitive的触摸，并完美的与后面开放的生态系统结合起来（不得不再次对乔大爷表示敬佩）。

3）人机交互越来越方向于人

可以看到随着技能的平民化(democratization)，人机交互正不可逆转地向人的方向靠近——不须要学习的人机交互。

将来越来越多的人都能更自然的通过打算设备来得到代价。
下一个超级增长点的交互办法，一定是交互更靠近人的自然行为，更多人可以利用的。

由于软硬件限定，过去用上打算设备的人很少。
一方面，当时的人机交互是让人来“姑息”机器——人学习机器的措辞——操作须要专业技能，如打孔...（在个人电脑方面，当年知道'cd 文件夹名'的命令行的人也都是高端人士）；另一方面打算设备巨贵，还不属于个人设备，大众都买不起；再者，日常运用和普通生产力运用险些没有，以是买来设备学会了UI也没啥用。
而移动设备涌现就让更多的人从利用打算设备中获利，更多不会键盘鼠标的人，通过触摸手机屏来操作。
将来人们想要得到做事的时候，或许不须要有“打算设备”这个中间载体的观点。
直接提出需求，就能得到结果。

4）下一代交互办法，似打算设备能覆盖更广的商业

Google Assistant Allo

看看过去app如何颠覆web的，在没有移动互联之前，大众点评只是一个不知道几流的小众产品，web也并非最得当这个商业模式的产品形态——比如大部分情形下，人们想要找餐厅的时候，身边都没有PC来得到其他人的点评信息；而移动互联的APP办理了这个问题。

这并不是说app代替了web（比如PS还是在桌面端更好用），而是借由移动设备，app开启了过去没有的维度，继而大众点评的商业模式有了更得当的产品形态。
我相信APP颠覆web的历史，也会同样发生不才一代人机交互的形态来颠覆当前app的时候。
不仅很多商业模式和形态都可以被重新考虑一次，乃至险些可以肯定CUI会打开新的维度，解放更多的商业代价。

如果一个C端产品做得好，传播不受硬件束缚，没有用户的利用本钱的障碍，并且不须要***新的APP，直接在熟习的IM或者SNS里实现过去用app承载的做事，乃至还能开拓新的形态...比起当前的其他选择AR/VR/IOT/区块链，CUI带来的想象空间更大。
以是，就有很多人，巨子小头没头的都来考试测验。

如果有老铁想获取Python人工智能、爬虫、web开拓方面的资料可以关注我然后私信回答我“Python”即可获取免费的资料链接

－对CUI的特点的理解决定产品代价－

不可否认的，真正的CUI产品一定是基于人工智能的自然措辞处理的。
如何深入利用CUI的特点，是产品打造的关键。

话说当前海内有很多投资人认为，只假如做人工智能的团队，就必须是MIT，Caltech出来的机器学习博士或者是GOOGLE，FACEBOOK的AI团队的人；如果团队不是顶级院校的学者或者是巨子出来的项目带头人，就没有什么好搞的——这是范例的误区，或者说对行业的理解太浅了。
这种理解基本即是 “听说你是打算机专业毕业的，帮我装一下电脑吧”这样的水平。
很不幸海内好多年轻点的投资经理基本都是这种水平（为什么年纪大点的不是？由于他们理解'不懂就不要轻易判断'这样的人闹事理）。
看不懂实质，就看表面，也是不得已。

这里，我非常赞许顺为成本的孟醒的几个不雅观点：1）所谓“做AI的”也有几个类型，底层研发和做运用的是两码事。
2）人工智能的底层交给大公司，小创业公司可以做点小模块。
而运用层则有大量的空间给创业公司来实现商业化。
3）“这个行业缺AI的产品经理，不缺一样平常意义上的明星，特殊牛x的算法达人，牛x的北京的BAT出来的人。
” 这方面吴恩达也有类似的不雅观点，“人工智能社区是极其开放的，大多数顶级研究者会出版他们的著作／分享他们的想法身子开源代码。
因此，在这个技能开元环境下，数据和人才便是稀缺的资源。
”

有点跑题了，在这里就强调一下，CUI的核心技能是AI（不仅限NLP后面会提到）。
对CUI作为新一代颠覆性人机交互的理解，才在产品形态上能发挥底层技能的商业代价。
末了，再举个例子，GUI的核心打破是技能大牛（xerox）带领的，而其商业运用的发扬光大则是产品经理乔布斯从xerox那儿“偷来”的。

1973年，xerox推出第一款GUI技能个人电脑；在1983年，苹果也推出了他们首款GUI电脑 Lisa（乔老爷 “完美借鉴” ）

年轻人不懂就要多看书。

1）CUI的不可延续GUI的特点

为了深入理解这个问题，我们可能要先剖析一下，CUI和GUI究竟给用户体验带来什么影响？由于这绝不是现在主流的“把按钮变成措辞操控”那么大略的事情。

当移动设备涌现的时候，大家对如何在智好手机上开拓产品还没有来得及有深入的理解。
以是当时开拓者基本都是从最明显的地方起步，也便是触摸代替键鼠操作。
早期的大量运用，都是从“如何把web缩小得手机屏幕”的思路出发来设计APP的。
——这是范例的延续上一代交互的思路。

随着开拓者不断思考和挖掘移动真个潜力，逐步有了对移动端真正的核心特质的理解——这些“圣杯属性”才是真正让移动端产品设计出众的要素。
比如“碎片韶光”、“个人身份绑定“、”LBS”等等，这些特质才是真正让移动产品表示代价的——这些是完备颠覆上一代交互的属性。
而且我们创造这些属性险些跟“触摸”这个明显的交互行为没有直接关系。

现在CUI涌现的时候，产品经理也会面临类似的问题。
当前大多数智能助理的设计思路都是“过去APP是怎么用的，我现在用措辞来代替触摸操作”。
好比是用措辞来代替手指去触摸屏幕，或者是用说话来代替手指打字。
而能让用户觉得真正智能的核心，我认为依然藏在CUI的“圣杯属性”里，有待大家发掘。

2）CUI的特点：高度个性化

举一个例子，根据实际研发和市场运作的履历，我们创造有一个算得上“圣杯属性”是特质是：“高度个性化”。

在GUI时期，用户利用产品时，有一个可视化的界面，比如找餐厅，我们打开点评看上去是这样：

这看上去是一个大家非常熟习的界面，只是所有用户能做的选择范围，都明确的显示在界面上（所见即所选）。
找美食，用户能做的选择基本便是：附近，类型，智能排序（不点开可能还不知道是什么意思）以及排序。
当用户自己不知道该如何决策的时候，这些视觉化的框架，给了用户提示该从这些方面根据自己的需求来做筛选和匹配。

但是在智能助理的界面，用户看到的是这样的：

用户对可以做哪些选择一无所知——在没有可视化的参考下，面对如此开放的交互，当用户要找一个餐厅的时候，他们提出的哀求，大都不在GUI设定的范围以内。

根据我们实际操作的履历，用户提出的问题是这样的：

只有“在外滩附近的”是之前GUI的查询范围当中的，其他的需求都是过去GUI的类型当中不存在的维度。
但由于CUI的开放性，用户很随意马虎给出上面这样的高度个性化（非构造化）的需求。

如果GUI的产品试图在个性化同样给用户那么多选择，就不得不面临用户利用本钱的问题。
一个界面可能会被大量的下拉列表，层级关系，各种填空和操作充满。
如此是加深了个性化程度了，但是操作的本钱会让用户放弃利用。

如果在智能助理的产品设计上，不尊重用户“高度个性化”的需求，只供应过去APP本身供应的个性化程度“在XX附近找个YY菜”，那么用户在实际提需求的时候得靠运气撞到既定的条件上，不然便是无法识别的范围，继而失落望。
另一方面，如果CUI只是在做GUI范围内的事情，会远不敷以颠覆APP。

除此之外，CUI还有一些专属的特点。
比如

利用流程非线性：比如GUI是线性的流程，界面勾引用户一步一步走到结果；而CUI则可以是完备忽略先后顺序的，用户可以再最开始就提出本来到排在末了的条件当中。
可避免信息过载：用户打开GUI的一个界面，比如点评上找一个餐厅，用户得在一个列表里去找寻自己最想要的选项（范例的案例是，GUI让用户选择国家的时候那一长排的列表）。
而CUI则可以规避用户的信息过载，直接给出期望的结果。
这个特点的另一壁是，GUI因此是informative的，给不熟习场景的用户更多的提示，或者比较结果的机会。
复合动作：“来日诰日后天，晚上最便宜的机票”——从用户的操作和实际体验来看，GUI无法一次给出结果，只能用户先查一次来日诰日的机票，再查一次后天的机票，然夹帐动来比拟。
CUI完胜——可以直接给出干系条件的检索结果，条件是AI足够精良。

这里只是抛砖引玉，详细更多特质会不断被开拓者发掘出来。
在这里就不详细展开了。
在另一篇《人工智能时期的产品经理》文章当中，会做更多关于CUI的剖析。

－什么样的AI Agent能知足C真个需求？－

为什么现在的助理产品都是坑？很多团队不是底层的算法差，而是团队对产品的理解有问题。

要知足C端用户的需求，确实非常难。
10次利用，有一次由于任意缘故原由的失落望，用户生理就会开始有疑虑。
从体验上来看，在用户熟习的场景下得全面理解用户提出的需求；在用户自身不清楚场景下，得自然的帮忙用户挖掘需求；得到需求后得帮助用户做决策，并终极呈现结果。
以此来看，对话式的agent得至少知足以下功能：

具备基于高下文的对话能力（contextual conversation）;具备理解口语中的逻辑（logic understanding） ;所有能理解的需求，都要有能力履行（full-fulfillment）;

1）基于高下文的对话能力（contextual conversation）

在当前，做助理的产品的底层技能基本都是环绕NLU（自然措辞理解）打造的，很多还没有涉及到NLP。
可是无论是大公司还是小公司的NLU都是让人失落望的。
举个大略的例子，在大公司的几个产品上提出需求：我下周五要去北京，帮我查一下航班。

须要识别意图：查机票

须要识别entities：韶光（下周五），目的地（北京），出发地（无/当前地理位置）

我们看当作果，首先看三家的回答，从左到右分别是苹果的SIRI, 微软的CORTANA, Google的ALLO。

没有一个能识别出来意图，全部用关键词来检索网页(SERP)。
没有识别出意图，继而也就没有可能识别entity所在的场景。
对付C端用户而言，这可能算是最根本的做事之一，而三大巨子供应的产品完备不能用。

不过当我们看到海内的创业公司，却能按照需求识别出意图，并且识别出对应的entity，组合查询出结果，看上去比几个巨子更强大。

我们连续测试高下文的对话。
比如，我是国航的会员，agent给出上面的结果里没有国航的航班，我自然会问：”有没有国航的？“

结果并没有准期望那样，在给出的列表里找到国航的航班。
而是开始了重新的一次查询。

换一句话来说，没有结合高下文的对话。
我并不是为了黑，事实上这个产品在海内的创业公司中也算不错的技能了。
但是不会结合高下文的对话，会造成的最严重的问题便是这个agent基本不能独立完成做事。
由于用户不会在一个句子里把所有的条件都列出来。

以上是基本要素，就当前的产品形态来看，只有非常少的产品能真正做到第一点。
大部分号称能做到的，都是滥竽充数，连续问问题而已。

不能真正理解高下文的对话（机票查询）：

AGENT：从哪里出发？

AGENT：到哪里？

AGENT：好的，从虹桥出发到浦东的航班是......

在上面的对话，AI Agent在问第二个问题的时候，不能理解用户对前一个回答的修正（出发地从“虹桥”改为“浦东”），只是按照预先设计对话的顺序，填上命名实体识别得来的entity。
继而查询不到结果，给用户的觉得便是笨。

真正理解高下文的对话（机票查询）：

AGENT：从哪里出发？

AGENT：到哪里？

AGENT：好的，出发改为浦东。
那到达城市呢？

AGENT：好的，从浦东到北京的航班是...（给出精确的结果）

而具备真正高下文理解的对话，agent可以精确理解用户第二个回答的内容（从浦东走），实在是在修正上一问题的回答（出发机场），而不是真的在回答第二个问题（到达地在哪里）。

这只是高下文的例子，而对付做事类agent而言，所有后续的NLP功能都基于高下文对话为条件。
这些看上去实在都是非常大略的需求，但是当前没有任何一个2C的agent可以做到。

可能有人会问，大部分用户都该当在第一韶光把需求表达出来吧，为什么还须要对话？实际上，真正操作过大量案例的同学就会创造，用户不可能如此”知心“地按照开拓者的设计来提出需求。

“帮我看看下个星期五去北京，下午3点多，从虹桥出发，国航的航班。
”——这一类的表达办法在险些从来没有涌现过。
哪怕是在用户最熟习的场景，也很难确保一个句子的表达里包含了所有必须的检索条件。
而且，用户还会一直的补充更多的个性化需求。

对付用户自己比较理解的场景，如：订机票须要供应到达地，用户提出的大多数需求，在最初都是非常大略，然后逐渐开始细化的。
以是须要当用户提出不完全需求的时候，根据其意图，结合之前已经给过的条件，通过对话，向用户提出问题，再得到答案来补全剩下还须要的条件，末了再完成做事。

对付用户自己不熟习的场景，用户根本就不知道自己该提出哪些方面的需求。
如：不懂酒的用户，想买一瓶得当的威士忌。
他就根本很难提出除了价格以外的需求，比如产地，年份，酿造质料，水源等等。
因此，Agent得以得当的办法来提问，勾引用户给出偏好，并且用对话提出推举。

如果有老铁想获取Python人工智能、爬虫、web开拓方面的资料可以关注我然后私信回答我“Python”即可获取免费的资料链接

而且对付agent而言，很难判断哪些用户对做事的认知有多深。
如果不做识别，就随意马虎问“老手”一些“新手问题”，继而让老手以为我还不如自己下单；而给新手又留下“你在说什么我都不懂”的印象，也是不聪明。

以是要有好的体验，这是非常困难的。
而基于高下文的对话，只是最根本的用户需求之一。

2）理解口语中的逻辑 (logic understanding)

在我们的实践中，我们创造对“逻辑”的理解直不雅观主要。
缘故原由也是由于用户的正常对话，大部分都不是开拓者预设那样的。

再做一个大略的测试，比如找餐厅，试试：帮我推举一个附近的餐厅，不要日本菜。

这是一个大略逻辑，但是你看所有的做事，这次包括刚刚那个海内创业公司C一样，都会是一个结果：全部推举日本菜。

也让朋友测试了亚马逊echo的alexa，结果也无法识别”不要“这个最大略的逻辑

这次实在比喻才好多了，至少4家里面除了google allo，都识别出来我的意图是找餐厅——但是，当我明确提出不要日本菜的时候，给出结果的三家全部都这天本菜......也便是说“不要” 两个字被完备忽略了。

不雅观察大量的用户案例表明，当用户越是个性化需求强烈的时候，对话中涌现逻辑和指代关系的频次越高。

“有没有更便宜的？”

“除了大床房以外的房间有么？”

“后天会比本日更冷么？”

“就要刚刚的那个2千多的吧。
”

“除了廉价航空，其他的航班都可以。
”

以上这些需求是提需求的时候，在对话中常常涌现的表达办法，而且看似大略，但是目前没有任何一个NLU的系统或产品能够精确的理解。
紧张的阻碍便是对逻辑的理解，还有在基于高下文对话中的指代关系的理解失落败。

3）NLP不是全部，还要有能力履行（API困境）

NLU并不是智能助理发展的瓶颈，供给真个数据才是。

我们假设如果有一个黑科技涌现，使得NLP有了极大的进步，以至于两个条件：1）基于高下文场景的对话；2）口语逻辑，都能被理解了，乃至还能基于场景和高下文用NLG来天生各种问题——它能理解我们所有讲出来的需求。

在用户熟习的范围内，它能结合所有的过去的对话，历史记录等等内部外部条件，帮助用户尽可能的实现“不用开口，就知道我在这个的需求”。
比如当用户提出“推举餐厅的需求”：

用户：“女朋友周日过生日，推举一个餐厅，找有江景的，最好桌子阁下有一个大落地窗户，能看到表面的夜景。
吃的不要太贵，环境好点，有现场音乐的最好是爵士，不要太吵的。
” （btw，这是一个真实需求）

Agent：“菜系有偏好么？”

用户：“意大利餐和法餐都可以，对了不要离外滩太远了”

agent解析出以下选择餐厅的条件：

环境好有现场音乐，爵士不能太吵意大利餐或者法餐间隔外滩不能太远

然后它去哪里找到这样的餐厅呢？在舆图做事供应商，或者点评的API供应的信息里只有8，9，两项能找到数据。
假设评论中有这样的数据，该用什么办法来通报呢？接供词给的都是构造化的数据，而“环境好”这样的非构造化数据，最多以标签的办法来做，但是这样的话，标签就会有无止境的多也不现实。

这便是我们所谓的“API困境”——当前基于API的数据通报办法，只能1）承载构造化数据；2）承载数量非常有限的构造化数据。
当前基于GUI的产品，都是用API来通报构造化数据。
但大量个性化数据每每是非构造化的，以当前API的办法很难被处理。
这还是在利用场景或者做事比较大略的情形下。

在用户不熟习的场景下，agent面对轻微专业一点的做事，就会碰着知识图谱的问题。
大略来讲，agent要做推举的条件是对推举的内容得先有理解。
好比，要向一位不懂酒的用户推举一款威士忌，那就不能依赖这位用户自己提出的问题（很可能提不出哀求），而得依赖“懂行”的自己对威士忌的理解的方方面面来勾引用户做得当他的选择。
一个助理显然无法拥有所有做事所需的知识图谱。

从知识图谱的构造来看，是相对可被构造化。
一个做事可以以各种办法被拆解成很多个方面，但大量的方面在当前是没有构造化数据的（比如我们没有每家餐厅的“业务面积”的数据）；乃至很多方面无法用构造化数据来表达（比如每家餐厅有否“适宜浪漫约会”的***。

因此，智能助理就算有了强大的NLP，还须要全面的知识图谱（构造化数据）和处理并通报非构造化数据的能力——而这两点，在目前是无解的。

－总结－

在\公众API困境\公众办理之前，再加上NLP本身还有很长的路要走，基于人工智能的多任务做事agent不大可能达到C端满意的水平。

创业团队各自最根本的认知打算的能力不会有太大的差异，都是踩在世界顶尖大牛的肩膀上——在这个领域创业团队想和大公司钢正面，不是很理性。

创业团队在垂直领域有些自己的技能打破可以创造一些阶段性的上风，但面对教诲市场的大山而言，这点差异远不敷以make a difference。

在各自领域，开拓者对人工智能干系技能的理解和其带来的交互层面的有效运用，可能会在垂直商业运用上创造更大的差异——比较起“95% VS 98%的识别率” 而言。

原文链接：https://juejin.im/entry/5833e7e28ac24700638f6aeb

如果有老铁想获取Python人工智能、爬虫、web开拓方面的资料可以关注我然后私信回答我“Python”即可获取免费的资料链接