02-人人都懂的人工智能:削减特色相关性_相干_特点
常常学习人工智能的朋友,该当看过这个词:减少特色干系性。在AI中,我们减少特色干系性帮助办理特色之间的高度干系性问题,这在统计和机器学习模型中很主要。
是不是不足直不雅观随意马虎理解?接下来我们用生活中的例子进行阐明,帮助你逐渐入门人工智能。
普通阐明:想象你是一位房地产经纪人,要评估房屋的价格。
1、原始特色(高维数据):你网络了很多关于屋子的信息:
屋子的总面积(平方米)寝室数量浴室数量客厅面积(平方米)厨房面积(平方米)车库大小(可停车数量)屋子的年事所在街区的均匀收入2、特色干系性问题:在这些特色中,有些是高度干系的:
总面积很可能与寝室数量、客厅面积、厨房面积高度干系。寝室数量可能与浴室数量干系。3、为什么这是个问题:
重复信息:你实际上在多次利用同样的信息。可能误导模型:模型可能会过分重视这些重复的信息。类似于一个人在辩论中重复同一个论点,但用不同的办法说了很多遍。4、降维的浸染:降维就像是一个聪明的助手,他帮你总结出了最关键的几个成分:
可能会创造一个新的特色叫"房屋大小指数",它综合了总面积、寝室数量等信息。另一个新特色可能是"奢华程度",综合了浴室数量、车库大小等信息。5、降维后的结果:现在你可能只须要关注几个关键成分:
房屋大小指数奢华程度屋子的年事所在街区的均匀收入6、好处:
简化:你现在有一个更简洁的特色列表,更随意马虎理解和利用。避免重复:每个新特色都供应了独特的信息,没有明显的重复。更可靠的预测:你的房价预测模型现在不会过分依赖于任何一组干系的特色。7、类比:这就像是你在总结一个人的特点。不须要分别说"他很高"、"他打篮球很厉害"、"他能摸到天花板",你可以大略地说"他是个高个子运动员"。
结论:降维帮助我们提炼出真正主要且互不重复的信息,就像一个好的能够用简洁的措辞概括繁芜的事宜。
这样不仅使我们的剖析更加清晰,也能帮助我们的模型做出更加准确和可靠的预测。
本文系作者个人观点,不代表本站立场,转载请注明出处!