人工智能领域,我们常常会听到“无监督学习”这个词。
但是,很多人对付无监督学习的观点和事理并不太理解,乃至有些人可能会以为这个观点有些博识莫测。

现在入门“AI无监督进修”还来得及_数据_算法 AI快讯

确实,看一些专业书本是有些烧脑,我自己也是硬啃了一些内容,又看了一些干系课程***之后,才有了比较清晰的理解,以是,写下本篇的我,希望以更随意马虎理解的办法来先容无监督学习。

Now let’s start!

我先说一下人工智能和机器学习之间的关系,再延伸到机器学习中的无监督学习。

人工智能(AI) 指的是使机器能够实行人类智能活动的一类技能。
这包括理解措辞、感知环境、学习和解决问题等任务。
也便是说,人工智能的目标是使机器系统能够仿照人类的智能行为,以实行繁芜的任务。

而机器学习(ML)是人工智能的一个特定分支,是一种通过从数据中学习并进行自动优化的方法,而不是通过明确的编程规则来实现任务。
其目标是让机器剖析大量数据并识别数据中的模式,并天生具有干系精确概率或可信度的结果。

换句话说,人工智能是一个更宽泛的观点,可让机器或系统像人类一样感知、推理、行动等,而机器学习是人工智能的一个子集,可让机器从数据中提取知识并自主学习,机器学习就像是实现人工智能目标的一种手段。

机器学习有不同类型,紧张分为监督学习、无监督学习、半监督学习及强化学习。
个中,无监督学习(Unsupervised learning)便是机器学习中的一种核心学习办法,也是数据科学的一个主要分支。
也是我们本篇要重点先容的内容。

全文9000字旁边,估量阅读韶光15分钟,若是碎片韶光不足,建议先收藏后看,便于找回。

照例,开篇供应本篇文章的目录大纲,方便大家在阅读前统辖全局,对内容框架有预先理解。

一、什么是无监督学习?

无监督学习很像人类的自学过程,我们人类紧张通过不雅观察、感知和互动,从而形成对天下的认知和理解,我们的学习办法有分类,归纳,推理等,我们从大量的信息中去找到规则、规律、构造、关系等模式来完成学习,这和无监督学习有异曲同工之处。

当我们类比人类的学习,来看无监督学习时,可以理解成这便是AI的自我学习。
他们不像监督学习那样被“送进学校”进行全面的演习。
在无监督学习中,我们向人工智能供应数据,然后它必须自己学习如何理解这些数据。

也正是由于这个特点,无监督学习常用于数据挖掘领域,通过构建模型来为业务决策供应依据。
或用于探求隐蔽在数据中的主要变量或特色,或用于识别模式或学习聚类,有些乃至可以教会自己一套行为策略,又或者可以自我监督。

为了更好地理解无监督学习,我们来打个比方。

我们让AI扮演一位图书管理员,让它发挥“无监督学习”的技能,卖力整理图书馆里的书本。

但这个图书馆非常特殊,它没有书本的分类标签,也没有任何指示见告AI哪些书该当放在一起。
AI的任务便是找出书籍之间的潜在联系,并将它们分组成类似的主题或种别。

在这个场景中,书本便是数据,而找出书籍之间的潜在联系的过程便是无监督学习。
这个过程中没有明确的辅导,只能通过不雅观察书本的内容、封面、出版年份等特色,来推断它们可能的关联,并据此进行分类。

也正因如此,研究无监督学习就变成一件很故意思的事情,不知道你是否也会好奇,在没有所谓的“标准答案”的条件下,无监督学习是如何完成任务的呢?

我们可以从无监督学习的亮点,局限,以及它和监督学习的差异中,找到一些答案。

二、无监督学习有哪些亮点?

在无监督学习中,AI不再依赖已知的标签信息来辅导学习过程,而是借助算法自行探索数据中的内在构造和模式。
在此根本事理上,我们可以创造无监督学习的很多亮点。

1. 无标签辅导

无监督学习的紧张特点是在演习阶段缺少标签或种别信息的辅导,AI无法依赖已有的“答案”来完成学习,它须要从大量未标记的数据中,找出潜在的模式和关联。

也正是由于这个特点,在处理大量的、繁芜的、高维的数据时,无监督学习就能发挥很大的浸染。
由于在现实天下中,大量的数据都是未标记的,比如互联网上的文本、图片、***等。
如果我们仅仅依赖于监督学习,那么这些数据的代价就无法得到充分的挖掘。

2. 创造数据内在构造

无监督学习通过对数据进行建模,来创造数据中的内在构造和关系,这个过程可以借助不同的算法来实现,比如聚类算法,降维算法,非常检测等。

聚类算法可以将相似的数据点分到同一个种别中,从而创造数据中的潜在构造。
降维算法可以减少数据的维度,同时保留数据中的有用信息,从而帮助我们创造数据中的潜在模式。
非常检测可以识别数据中的非常或离群点,从而帮助我们更好地理解数据的分布情形。

在许多运用处景中,获取标注数据须要大量的韶光和金钱。
无监督学习可以在未标注的数据中创造规律和模式,还有利于降落标注本钱。

目前,AI的无监督学习水平还是很让人惊艳的,最新上市的Sora***天生模型技能,就引起了较大的市场关注。

3. 自主学习

无监督学习得以不依赖数据标签的情形下,从大量的数据中创造模式和关系,这就凸显出了“自主学习”的亮点。

凭借着这个亮点,无监督学习就像是一个人节制了对未知天下的探索和学习能力一样,放眼大千天下,都是无标签数据,无监督学习具备了很强的灵巧性温柔应性来学习统统。

自主学习看重模型对数据的主动探索,强调模型对数据内在关系的学习,还强调AI对数据整体性的理解,就像人类在碰着一些问题时,要有探索精神,会研讨学习并剖析规律,先纵不雅观全局后再逐步打破的模式很像。

就拿数据整体性来说吧,模型通过对整体数据的学习,能够更好地理解数据的整体布局。
模型产生的学习结果就可以更同等和准确,很显然,就会提高模型的泛化能力。

4. 运用处景广泛

无监督学习的运用范围极为广泛,涵盖了浩瀚领域和场景。

在商业领域,无监督学习被广泛运用于客户细分。
通过剖析消费者的购买历史、浏览行为和偏好,无监督学习可以帮助企业识别出不同的客户群体,从而实现更加精准的市场营销策略。

例如,通过聚类算法,企业可以将客户分为高代价客户、潜在客户和流失落客户平分歧群体,并根据这些群体的特色制订个性化的匆匆销活动。

而市场剖析,则是另一个无监督学习的用武之地。

通过对大量市场数据进行剖析,无监督学习可以帮助企业和研究职员创造市场趋势、消费者行为模式和市场细分。
这种剖析可以帮助企业更好地理解市场需求,预测市场变革,并据此调度产品策略和营销操持。

在图像处理领域,无监督学习被用于图像分割和特色提取。
(图像分割是指将图像划分为多个部分或工具,每个部分代表一个特定的区域或工具)。
无监督学习可以通过剖析图像中的像素强度、颜色和纹理等特色,自动识别和分割图像中的工具。

特色提取则是指从图像中提取出对后续任务有用的信息。
无监督学习可以通过降维和特色选择等技能,从高维的图像数据中提取出关键特色,用于图像识别、分类和检索等任务。

不仅如此,无监督学习险些没有行业边界。
在生物信息学中,无监督学习可以帮助研究职员剖析基因表达数据,识别出不同的基因模式和功能模块。

到了文本挖掘领域,无监督学习可以通过主题模型等技能,创造文本数据中的隐蔽主题和语义构造。

再到社交网络剖析中,无监督学习可以帮助识别社区构造、关键影响者和信息传播路径。

如果是在推举系统中,无监督学习可以通过剖析用户行为和偏好,供应个性化的推举。

大略地说,无监督学习的运用处景广泛的亮点将给AI带来广阔的市场空间,在各行各业都有它的用武之地。

三、无监督学习有哪些局限?

当人工智能自学时,它们并不能担保完备能理解所学的内容。
在无监督学习中,当没有精确和缺点的例子作为“参考答案”时,人工智能的准确性可能更难提高。

“人类和动物的大部分学习都是无监督学习,”脸书的首席人工智能科学家杨立昆说,“如果智能是一块蛋糕,无监督学习便是蛋糕体,监督学习便是蛋糕上的糖衣,而强化学习便是蛋糕上的樱桃。
我们知道如何制作糖衣和樱桃,但我们还不知道如何制作蛋糕体。

由此可见,无监督学习除了具备诸多亮点以外,也同时存在着一些局限性,这些局限性也是AI领域的研究职员须要去打破,去战胜的寻衅。

1. 学习过程不透明

无监督学习可以创造和利用数据中的内在构造,这种特点很好,但也同样带来了局限,便是模型的学习过程不透明。
这意味着无监督学习模型常日难以供应对学习过程的清晰阐明,这也导致我们难以理解模型是如何对数据进行学习和做出预测的。

也正因如此,我们对模型就无法形成绝对的信赖。
在许多运用处景中,尤其是在须要高度任务和透明度的领域(如医疗、金融等),模型的不透明性可能导致人们对其结果持疑惑态度。

同时,它也限定了模型的可用性。
当我们无法理解模型的事情事理时,我们就难以对其进行改进或调度,也难以将其与其他模型或方法结合利用。

我们就看市情上诸多的谈天对话AI产品,它们会根据我们供应的问题给我们不同的反馈,但是用户常日是不清楚AI模型是经由了什么样的数据处理过程后,给出了回答。

回答的质量也不稳定,有时候回答得很专业、全面。
有时候又回答得牛头不对马嘴,或者都是一些空泛的废话,乃至有时候还会不苟言笑地胡说八道,如果没有一定的判断能力,被AI的信息误导也是很有可能的。

如果我们想要得到一些精准有效的答案,就须要考试测验和摸索出一些Prompt来调控AI的回答质量。
这统统的统统,都是由于AI模型的学习过程不透明,我们不清楚从输入到输出的这个过程中,AI的神经网络内部详细发生了什么。

为了战胜这些寻衅,研究职员正在努力提高无监督学习模型的可阐明性。
一种方法是开拓新的算法和技能,让模型在学习过程中能够供应更多的阐明信息。
另一种方法是结合其他领域的技能和方法,如可视化、人机交互等,来帮助人们更好地理解模型的事情事理。

2. 对非常数据敏感

由于不依赖于外部供应的标签信息,无监督学习算法必须直接从数据本身中提取信息,这意味着数据中的每一个细节都可能对学习结果产生重大影响。

如果数据集中存在着非常数据,就像画布上有污点或者颜色不屈均一样,终极的作品多少都会受到影响。
在无监督学习中,数据中的噪声和非常值就像画布上的“污点”,可能会扭曲算法对数据内在构造的理解,导致学习结果的不准确。

BTW,补充阐明一下知识点:噪声和非常值。

噪声是指数据中的随机偏差,它们可能是由于丈量不准确、数据传输缺点或者数据本身的随机颠簸所造成。
在无监督学习中,噪声可能会导致算法缺点地将某些模式识别为主要的构造,或者忽略了真正的模式。
这就好比在喧华的环境中考试测验聆听一个微弱的声音时,噪声可能会让你误解或者错过主要的信息。

非常值则是指那些与大多数数据显著不同的数据点。
在无监督学习中,非常值可能会对聚类结果产生显著影响,导致算法创建出不符合数据真实分布的簇。
这就像是在一群人中,有几个人的身高非常高大或者矮小,如果你仅仅根据身高来分组,这些非常值可能会导致你的分组策略失落效。

由于这些敏感性,无监督学习算法在运用时须要对数据进行严格的预处理,包括数据洗濯、去除噪声和非常值、特色选择和缩放等。
这些步骤可以帮助提高数据的质量,减少对学习结果的不利影响。

3. 难以准确评估模型性能

无监督学习作为一种主要的机器学习方法,由于其不依赖外部标签的特性,在某些场景下,我们难以通过一些量化指标来评估模型性能,这就意味着,之前我们提到的例如准确率、召回率、F1分数等指标,用来评估监督学习模型的准确性有用,但评估无监督学习的模型性能就不再适用了。

插一嘴,关于评估监督学习中AI模型性能的数据指标,我在这篇《产品经理的独门技能—AI监督学习(6000字干货)》中有详细先容,感兴趣的可以看看。

也正因如此,无监督学习模型的评估每每更加繁芜和主不雅观。
在评估无监督学习模型的性能时,须要综合考虑多种方法,比如内部评估法、比较法、可视化方法等,并结合领域专家的参与和判断,才能得到较为可靠和全面的评估结果。

不过,我相信这只是暂时的,随着无监督学习研究的深入和运用的拓展,未来会涌现更多有效的评估方法和指标,以促进无监督学习技能的发展和运用。

4. 难以选择得当的模型

无监督学习领域包含了多种算法,如聚类、降维、自编码器、天生对抗网络(GANs)等。
每种算法都有其特定的适用场景和假设条件。
这些算法不仅多样还繁芜,我们须要对算法有深入的理解,才能选择一个适宜特天命据集和问题的模型来应对详细的场景。

场景多样,算法繁芜,又没有可量化的评估指标,还有许多超参数须要调度,这些成分都导致了我们在实际运用中,难以选择得当的模型,拿着不得当的模型去参与演习,自然也无法达到空想的演习结果。

四、监督学习和无监督学习的差异

监督学习和无监督学习都是机器学习领域的核心方法,监督学习是一种基于有标签数据的机器学习方法,须要通过给定样本集目标和规则参数来进行学习。
无监督学习是一种基于无标签数据的机器学习方法,基于海量数据探求相似性和内在关联。

在实际运用中,监督学习与无监督学习各展所长,监督学习在图像识别、语音识别、自然措辞处理等领域给我们的生活带来新的便利。
而无监督学习则在数据挖掘、推举系统、社交网络剖析等领域崭露锋芒,为大数据时期供应了全新的视角,如客户细分、非常检测等。

“两仪生四象,四象生八卦”,监督学习与无监督学习这两大高手合营,我们的未来充满了新的可能。

接下来,我们就来一起看看监督学习和无监督学习有哪些差异?

1. 数据标注不同

监督学习和无监督学习在数据标注的哀求和办法上不同。
前者利用有标签的数据集,而后者利用无标签的数据集,我们分别展开说一下。

【监督学习】:

监督学习利用的是有标注的数据集进行演习。
依赖于有标签的数据就意味着每个演习样本都有一个对应的输出标签或目标,这些标签或目标常日由专家或通过其他方法预先标注好。

例如,在图像识别任务中,如果要识别出不同动物,演习集中的每张图片都已经标注了它所代表的动物种别。
监督学习算法会学习图像的像素特色与对应的种别标签之间的关系,以便对未知图像进行分类。

【无监督学习】:

无监督学习利用的是未标注的数据集进行演习。
没有明确的输出目标,模型须要自行创造数据中的构造或模式。

假设一家大型零售公司希望理解其客户群体的构造和购买行为,以更好地定制营销策略。
公司拥有大量的客户交易数据,但这些数据没有预先标注的客户种别或细分市场信息。

无监督学习可以剖析客户的购买历史、消费频率、均匀消费额等特色,无需任何外部辅导,自行识别出不同的客户群体。

2. 学习目标不同

监督学习和无监督学习在学习目标上也不同,前者关注于学习输入与输出之间的映射关系,而后者关注于创造数据中的潜在构造和模式。

【监督学习】:

监督学习的目标是学习一个函数,该函数能够将输入映射到相应的输出。
模型通过最小化预测值与实际标签之间的差异来进行演习。

如果是在一个推举系统中,监督学习可以用于根据用户的历史行为数据预测用户可能感兴趣的商品

【无监督学习】:

比较之下,无监督学习的目标更似雾里看花,它的目标是创造数据中的隐蔽构造或模式,而不关注详细的输出。
AI模型须要自行捕捉出数据的内在关系,如聚类、降维等。

同样是在一个推举系统中,无监督学习可以用于创造用户之间的相似性,从而实现个性化推举。

3. 算法类型不同

监督学习和无监督学习在算法类型上的差异紧张表示在它们各自适用的任务和解决问题的方法上。
监督学习算法紧张用于办理分类和回归问题,而无监督学习算法紧张用于创造数据中的模式和构造。

【监督学习】

监督学习算法紧张包括那些用于办理分类和回归问题的算法。
分类问题涉及将数据点分配到不同的预定义种别中,而回归问题则涉及预测一个连续的数值。

常见的监督学习算法包括:

线性回归(Linear Regression):用于预测连续数值输出的算法,通过拟合线性模型来描述输入和输出之间的关系。

逻辑回归(Logistic Regression):用于二分类问题的算法,通过逻辑函数建模,输出为概率值。

决策树(Decision Trees):通过树状构造进行决策,适用于分类和回归问题。

支持向量机(Support Vector Machines,SVM):用于分类和回归问题的算法,通过找到最大化种别间间隔的超平面。

K最近邻(K-Nearest Neighbors,KNN):基于实例的学习方法,通过丈量输入与演习集中最近邻的间隔进行分类。

随机森林(Random Forest):集成学习算法,由多个决策树组成,用于分类和回归。

【无监督学习】

无监督学习算法不依赖于外部供应的标签信息,它们可以用于探索数据集的潜在特色、减少数据的维度、创造数据中的非常点或对数据进行聚类。

常见的无监督学习算法包括:

K均值聚类(K-Means Clustering):将数据分为K个簇,每个簇包含相似的数据点。

层次聚类(Hierarchical Clustering):基于层次构造将数据点组织成树状图,逐步合并或拆分簇。

主身分剖析(Principal Component Analysis,PCA):降维算法,通过找到数据中的主身分来减少特色的维度。

独立身分剖析(Independent Component Analysis,ICA):探求数据中相互独立的身分,常用于旗子暗记处理。

自编码器(Autoencoders):一种神经网络构造,用于学习数据的压缩表示,常用于降维和特色学习。

关联规则学习(Association Rule Learning):用于创造数据集中的关联规则,例如Apriori算法。

高斯稠浊模型(Gaussian Mixture Model,GMM):一种概率模型,可以用于聚类和密度估计。

流形学习(Manifold Learning):用于学习数据的低维表示,以更好地捕捉数据的内在构造。

4. 性能评估不同

由于数据演习的办法和目标都不一样,以是对无监督学习和监督学习的性能评估办法也不同。

【监督学习】

监督学习的性能评估相对直接,常日通过与真实标签的比较来衡量。
在这种情形下,评估指标包括准确率、召回率、F1分数等。
这些指标用于衡量模型在不同方面的性能,例如精确分类的比例、模型对正例的捕获能力等。

在《产品经理的独门技能—AI监督学习(6000字干货)》中有更多关于评估AI数据指标的详解,感兴趣的可以看看。

结合数据集后,监督学习常日将数据划分为演习集和测试集,模型在演习集长进修,然后在测试集上评估性能。
还可能利用验证集进行模型调优。

【无监督学习】

比较之下,无监督学习的性能评估会更繁芜一些,这也是由于无标签数据来演习模型,量化评估的办法在无监督学习身上就不起浸染。

无监督学习的评估常日依赖于内部评估指标或与多个算法进行比较。
例如,在聚类任务中,评估指标可能包括簇内相似性和簇间差异性,以及在聚类趋势、数据簇数和聚类质量方面的考量。

我们先认识一下“什么是簇”。
在聚类剖析中,簇是指具有相似特色的数据点的凑集。
聚类是一种无监督学习方法,其目标是将数据集中的样本划分为不同的簇,使得同一簇内的样本相似度较高,而不同簇之间的相似度较低。

我们再看“簇内相似性”。
簇内相似性是指在聚类问题中,同一簇内的样本彼此之间的相似程度或靠近度。

对付一个包含多个样本的簇,簇内相似性的高低反响了这些样本在特色空间中的紧密程度。
如果同一簇内的样本足够相似,即它们在特色空间中的间隔较小,那么簇内相似性就会较高。
相反,如果簇内的样本相差较大,相似性就会较低。

知道了“簇内相似性”,我们再来看“簇间差异性”。
在聚类剖析中,簇间差异性是指不同簇之间的差异程度。
它是通过衡量不同簇之间样本的分离程度来评估聚类质量的一个指标。

簇间差异性越大,表示不同簇之间的样本差异越显著,聚类效果越好。
好的聚类该当使得同一簇内的样本相似,而不同簇之间的样本有较大的差异。

在实际运用中,簇间差异性的评估有助于选择得当的聚类数目,优化聚类算法的参数,以及理解数据的聚类构造。

此外,无监督学习算法的性能评估还可能涉及到将无监督学习转化为监督学习的方法。
这种方法涉及天生伪标签,然后利用监督学习中的评估指标。

5. 运用处景不同

监督学习更适用于已知目标和标签的运用处景 ,而无监督学习更适用于数据探索和构造创造的运用处景。
在实际运用中,它们的选择依赖于问题的性子、数据的可用性以及建模的目标。

【监督学习】:

监督学习适用于那些已知输出情形下的问题,包括图像分类、语音识别、自然措辞处理等领域。
运用处景也比较比较广泛,比如识别照片中的工具、检测图像中的非常(如疾病检测)或对图片进行分类(如区分不同类型的花朵)。

在语音识别中,监督学习算法能够识别和转录语音旗子暗记,运用于语音助手、自动字幕天生和语音到文本转换。

在自然措辞处理(NLP)中,监督学习用于文本分类(如垃圾邮件检测)、情绪剖析(判断文本表达的情绪是正面还是负面)、机器翻译(如将一种措辞翻译成另一种措辞)和实体识别(识别文本中的特定实体,如人名、地点或组织)。

总之,这些运用处景的共同特点是它们都涉及对输入数据(如图像、文本、声音等)进行分类、回归或其他预测任务,并且都有足够的标注数据来演习模型。
实在,这也是对应了监督学习的自身特点。

【无监督学习】:

与监督学习相对应的无监督学习,紧张用于创造数据的潜在构造,而不须要预先知道输出。
因此,在数据探索、特色学习等场景中,无监督学习能发挥较大的浸染。

假设,我们有一个包含大量未标注文本的数据集,我们希望找到个中的主题构造。
无监督学习的主题建模算法可以帮助我们自动识别文本中的主题,而无需预先定义每个文本的主题标签。

在我们日常会打仗到的事情和生活中,无监督学习可以通过剖析社交网络中的用户行为、互动和内容,帮助识别社区构造、关键影响者和信息传播路径。

在图像处理中,无监督学习可以用于自动分割图像中的工具,这在医学影像剖析中尤其有用,如自动识别和分割肿瘤组织。

无监督学习还可以用于识别韶光序列数据中的模式和趋势,如股票价格走势剖析、景象模式预测等。

看了多个场景后,我们就能创造无监督学习的运用处景共性,便是它们都须要处理大量未标记的数据,并从中提取有用的信息和构造。
无监督学习也正是现在的热门研究领域,相信其未来一定会发挥更大的浸染。

五、总结与预报

在末了,我们来总结一下,本篇首先先容了无监督学习的基本观点,它是一种机器学习方法,不须要外部标签或辅导,能够自主创造数据中的构造和模式。

第二段先容了无监督学习的亮点,无需人工标注大量数据,能够创造数据内在构造,能实现自主学习,也能适用于广泛的场景。

在第三段,提到了无监督学习的局限,如学习过程不透明,对非常数据敏感,难以准确评估模型性能,以及难以选择得当的模型。

末了,我将监督学习与无监督学习进行了比拟,两者在数据标注、学习目标、算法类型、性能评估和运用处景等方面都有所不同,各有千秋。

关于无监督学习的内容不仅仅只有这些,我也会在此平台持续更新关于无监督学习和AI干系知识的更多内容。

大略预报一下,后续的篇章我会连续和大家聊聊无监督学习,会涉及到无监督学习的算法,无监督学习的落地场景和产品案例等内容。

AI的天空很广,我们一起飞行。

作者:果酿,公众号:果酿产品说

本文由 @果酿 原创发布于大家都是产品经理,未经作者容许,禁止转载。

题图来自 Unsplash,基于CC0协议。

该文不雅观点仅代表作者本人,大家都是产品经理平台仅供应信息存储空间做事。