翻译 | 刘春雷 杨恕权 整理 | 凡江 吴璇

数据科学、机械进修、人工智能究竟有什么差异?_人工智能_数据 云服务

当我向别人先容我是数据科学家时,我常常被问到“数据科学和机器学习有什么差异”或者“这是否意味着你在从事人工智能事情?”类似问题我已经回答过很多次,答案可以总结成“三原则”:

这些领域确实有很多重合,而且各自都有各自的说法,选择哪一个看起来更像是一个市场问题。
但是他们不可互换:这个领域的大部分专业人士,对如何把特定的事情分成数据科学、机器学习、人工智能,都有自己的一套直觉,只管它很难用措辞描述出来。

以是在这篇文章中,我提出了一个关于相称简化的定义:

数据科学产生见地

机器学习做出预测

人工智能创造行为

须要明确的是,这不是一个充分的定义:不是所有符合定义的都属于这个领域。
(算命师做决策,但我们永久不会说他们在做机器学习!
)同样也,这也不是决定一个人的角色或者事情头衔的好方法(“我是一个数据科学家吗?”),这是一个关注点和履历的问题。
(任何事情都可以这样描述:写作是我事情的一部分,但我不是一个专业的作家)。

但我认为这个定义是一种有效的办法,它可以来帮助你差异这三种类型的事情,这样评论辩论起来时不会让人以为很傻。
值得把稳的是,我在谈论成为一个描述主义者而不是规范主义者的方法:我感兴趣的是这个领域的人如何利用这些术语而非术语本身。

数据科学产生见地

数据科学和其它两个领域有所差异,是由于它的目标是基于人类:能够得到洞察力和理解。
Jeff Leek对数据科学可以实现的洞察类型有很好的定义,包括:描述性(“普通客户有70%的更新机会”),探索性(“不同的发卖职员有不同的更新率”)和因果关系(“一个随机实验表明分配给Alice的客户比分配给Bob的客户更有可能更新)。

不是所有产生洞察力的科学都是数据科学(数据科学的经典定义是统计学、软件工程和领域专业知识的组合)。
但是我们可以用这个定义来区分ML和AI。
紧张差异在于,数据科学中总有人工参与:有人正在理解、洞察,看到数字,或者从结论中受益。
“我们的象棋游戏算法利用数据科学来决定下一步棋”或者“Google舆图利用数据科学来推举驾驶方向”是毫无意义的。

数据科学的定义因此强调:

统计推断

数据可视化

实验设计

领域知识

互换

数据科学家可能会利用大略的工具:他们可以报告百分比并根据SQL查询制作线图;也可以利用非常繁芜的方法:他们可能会利用分布式数据存储来剖析数万亿条记录,开拓尖真个统计技能并构建交互式可视化。
无论他们利用什么,目标都是为了更好地理解他们的数据。

机器学习做出预测

我认为机器学习是关于预测的领域:“给定具有特定特色的实例X,预测Y”。
这些预测可能是关于未来的(“预测这个病人是否会得败血症”),但它们也可能是对付打算机不明显的特性(“预测这个图像是否有鸟)”。
险些所有的Kaggle比赛都可以被认定为机器学习问题:他们供应一些演习数据,然后查看参赛者是否可以对新例子做出准确的预测。

数据科学和机器学习之间有很多重叠。
例如,逻辑回归可以用来获取关于关系的见地(“用户越富有,他们购买我们产品的可能性越大,以是我们该当改变我们的营销策略”)并做出预测(“这个用户有53 %购买我们产品的可能性,以是我们该当向他推举我们的产品“)。

像随机森林这样的模型可阐明性稍差,而且更适宜“机器学习”的描述,深度学习等方法是众所周知的难阐明。
如果你的目标是得到见地而不是做出预测,这可能会阻碍你。
因此,我们可以想象一个数据科学和机器学习的“谱”,个中可阐明模型方向于数据科学,更多“黑盒子”模型则方向于机器学习这一边[source](https://xkcd.com/1838/)

大多数从业者可以在这两个任务之间非常舒适地来回切换。
我在事情中同时利用到机器学习和数据科学:我可以通过机器学习的方法,在Stack Overflow的业务资料上匹配一个模型来剖断哪些用户更有可能是在探求一份事情,然后用数据科学来构筑结论和可视化结果来验证为什么这个模型有效。
这是非常主要的方法来创造你模型中的缺陷以及办理算法偏见。
这也是数据科学常常将机器学习发展为一个产品的缘故原由。

人工智能创造行为

人工智能是目前为止这三个类中最古老和最广为承认的,但结果也是最具寻衅性来定义的。
由于寻求资金和关注的学者、和创业者,人工智能也得到了大肆宣扬。

由于这也意味着一些本该当被称为人工智能的事情却并不是按照这样进行描述的,这也引起了我的强烈反对。
一些学者也在抱怨人工智能的浸染:“人工智能是我们现在还无法做到的”。
以是什么事情可以让我们合理地描述人工智能?

一个定义“人工智能”的通用思路是一种自发代理行为实行或者推举办动行为 (e.g. Poole, Mackworth and Goebel 1998,Russell and Norvig 2003)。
我认为也属于人工智能的系统包括:

人机博弈算法 (Deep Blue,AlphaGo)

机器人学和掌握理论 (运动方案, 两足机器人的步辇儿行为)

优化选择 (谷歌舆图路径选择)

自然措辞处理 (机器人2)

强化学习

此外,人工智能与其他领域也有很多交叠。
深度学习由于横跨机器学习和人工智能两个领域,以是特殊有趣。
范例运用例子便是演习数据然后作出预测,这已经在大家机博弈算法中表现出巨大的成功,比如Alphago(与更早之前的人机博弈系统,如深蓝比较,Alphago更聚焦于探索和优化未知的办理方案空间)。

但这之间也有差异。
如果我剖析一些发卖数据,会创造来自特定行业的客户比其他更多 (提取出一些调查结果), 输出结果是一些数字和图表,不是特定行为。
(管理者可能会根据这些结论改变发卖策略,但这个行为不是自发性的) 这意味着我会将我的事情描述为数据科学: 如果将提高发卖额的方法归结于人工智能将会是很尴尬的说法。

请不要将经受过算法演习的人都写作具有人工智能能力的人

——Dave Gershgorn ✔@davegershgorn 3:17 AM - Sep 19, 2017

人工智能与机器学习的差异更加奇妙,从发展历史来说,机器学习常日被认为人工智能的一个子领域 (打算机视觉尤其是一个经典人工智能问题)。
但我认为机器学习领域已经与人工智能有较大割离,一定程度上是由于上面所提及的冲击:大多数研究预测问题的人都不喜好把自己描述成人工智能研究职员。
(很多主要的机器学习所取得的打破来自于数据剖析,而这些数据在AI领域的其他领域很少涌现。
) 这意味着,如果你能把一个问题描述为“从Y中预测X”,我建议你完备避免利用“人工智能”这个词。

案例研究:若何将这三者一起利用

假设我们正在开拓一辆自动驾驶汽车,并且正在研究将车停靠在停车标志处的特定问题。
我们须要从这三个领域中得到的技能。

机器学习: 汽车必须利用它的摄像头识别停车标志。
我们布局一个包含数百万街边工具的照片数据集,然后演习一个算法来判断那些照片中有停车标注。

人工智能:一旦我们的汽车识别出停车标志,它就须要决定什么时候采纳刹车动作。
太早或太晚运用它们是危险的,我们须要它来处理不同的路况 (例如,须要识别一条光滑道路,并不敷以较快地将速率降下来识到它的速率不足快), 这便是掌握理论范畴。

数学科学:在街头测试中我们创造车的性能并不是足够好,通过停车标志来驱动停车还是会有一些疏漏。
在剖析街边测试数据后,我们再次洞察到漏判率与每天的韶光有关:在日出之前或日落之后更随意马虎涌现漏判 停车标志。
我们意识到我们大多数演习数据仅都是大白天下的停车标志,以是我们构建了一个更好的数据集,包括夜间图片然后在返回去进行机器学习步骤。

常日将人工智能与能够在不同的领域实行任务的通用人工智能或者超过人类智力的超人工智能混为一谈并没有任何帮助。
这对任何被描述为“人工智能”的系统都有不切实际的期望。

此处我提及到“机器人”是指用于阐明自然措辞并以同样办法回答的系统。
这可以与用于提取数据的文本挖掘和用于分类文档的文本分类相区分。

博客原址: http://varianceexplained.org/r/ds-ml-ai/

雷锋网干系文章:

Must Know!
数据科学家们必须知道的5种聚类算法

如何成为一名数据科学家?Yann LeCun 的建议大概能给你答案

更多文章,关注雷锋网

添加雷锋字幕组微旗子暗记(leiphonefansub)为好友

备注「我要加入」,To be an AI Volunteer !