AI项目我有了但没罕见据该怎么办?_数据_模子
在我做过的很多项目中,公司虽然有非常棒的AI商业创意,但当他们意识到自己没有足够的数据时,却会逐步的变得沮丧起来。然而,确实有办理的方案。本文的目的是简要地向你先容个中的一些在我的实践中已经证明有效的方法,而不是列出所有现有的办理方案。
数据稀缺问题非常主要,由于数据是任何人工智能项目的核心。在ML项目中,数据集的大小常常导致性能低下。
大多数时候,数据干系的问题是伟大的AI项目无法完成进展的紧张缘故原由。在一些项目中,你会得出这样的结论:没有干系的数据,或者网络过程过于困难和耗时。
监督机器学习模型正被成功地用于应对一系列业务寻衅。然而,这些模型须要大量的数据,它们的性能在很大程度上依赖于可用的演习数据的大小。在许多情形下,很难创建足够大的演习数据集。
有监督的机器学习模型正成功运用于应对各种业务寻衅。 但是,这些模型须要大量数据,其性能在很大程度上取决于可用演习数据的大小。 在许多情形下,很难创建足够大的演习数据集。
我须要多少数据?
你须要的例子大约是模型中自由度的10倍。模型越繁芜,就越随意马虎过度拟合,但通过验证可以避免这种情形。然而,根据用例可以利用更少的数据。
过度拟合:过拟合是指为了得到同等假设而使假设变得过度严格。避免过拟合是分类器设计中的一个核心任务。常日采取增大数据量和测试样本集的方法对分类器性能进行评价。
还值得谈论处理缺失落值的问题。特殊是当数据中缺失落值的数量足够大(超过5%)时。
同样,处理缺失落的值将取决于某些\公众成功\"大众标准。此外,对付不同的数据集,乃至对付不同的运用程序,这些标准都是不同的,比如识别、分割、预测和分类(给定义相同的数据集),乃至对付不同的运用程序(识别、分割、预测、分类)。
主要的是要理解,没有完美的方法来处理须要丢失的数据。
存在着不同的办理方案,但这取决于问题的类型——韶光序列剖析、ML、回归等。
当涉及到预测的技能时,只有在没有完备随机不雅观察缺失落值时才利用它们,并且选择变量来估算缺失落值与它的某种关系,否则它可能产生禁绝确的估计。
常日,可以利用不同的机器学习算法来确定缺失落值。 这可以通过将短缺的特色转换为标签本身,现在利用没有缺失落值的列来预测具有缺失落值的列。
根据我的履历,如果你决定去构建一个人工智能驱动的办理方案,那么在某个时候你将会面临缺少数据或丢失数据的问题,但幸运的是,有一些方法可以去办理这个问题。
缺少数据?
如上所述,精确估计人工智能项目所需的最小数据量是不可能的。显然,项目本身的性子将影响所需的数据量。例如,文本、图像和视频常日须要更多的数据。然而,为了作出准确的估计,还应考虑许多其他的成分。
要预测的种别数量你的模型的预期输出是多少?基本上,数量或种别越少越好。
模型的性能如果你操持生产一种产品,你须要理解更多产品。一个小的数据集可能足以证明观点, 但在生产中,你须要更多的数据去完善你的产品。
一样平常来说,小型数据集须要具有不繁芜(或高偏差)的模型,以避免模型对数据的过度拟合。
非技能性的办理方案在探索技能办理方案之前,让我们剖析一下我们可以做些什么来增强你的数据集。这可能听起来很大略,但在开始利用人工智能之前,请在考虑数据网络的情形下,通过开拓外部和内部工具尽可能多地获取数据。如果你知道机器学习算法要实行的任务,那么你可以预先创建一个数据网络的机制。
考试测验在你的组织中建立一个真实的数据文化。要启动ML实行,可以依赖于开放源码数据。ML有很多可用的数据,一些公司已经准备好供应这些数据。
如果你的项目须要外部数据,为了得到干系数据,与其他组织建立伙伴关系是有益的。建立互助关系显然须要一些韶光,但得到的专有数据将对所有竞争对手构成天然樊篱。
构建一个有用的运用程序,把它分发出去,利用数据我在之前的项目中利用的一种方法是向客户供应对云运用程序的访问权限。进入运用程序的数据可以用来构建机器学习模型。我以前的客户为医院开拓了一个运用程序,并免费供应。因此,我们网络了大量数据,并为ML办理方案创建了一个独特的数据集。见告客户或投资者你已经建立了自己独特的数据集,这真的很有帮助。
小数据集
根据我的履历,一些可以帮助从小数据集构建预测模型的常用方法是:
利用更大略的分类器模型,例如:短决策树,它可以避免过度拟合。也可以利用集成方法,个中分类器投票可以补偿个人的过度学习。
一样平常来说,机器学习算法越大略,它就越能从小数据集中学习。从ML的角度来看,小数据须要具有大略(或高偏差)的模型,以避免模型对数据的过度拟合。我把稳到朴素贝叶斯算法是最大略的分类器之一,因此可以从相对较小的数据集中很好地学习。
朴素贝叶斯法是基于贝叶斯定理与特色条件独立假设的分类方法。最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型(Naive Bayesian Model,NBM)。
朴素贝叶斯分类器基于一个大略的假定:给定目标值时属性之间相互条件独立。
你还可以依赖其他线性模型和决策树。实际上,它们也可以在较小的数据集上实行得相对较好。基本上,大略的模型能够比繁芜的模型(神经网络)更好地从小数据集中学习,由于它们实质上试图学习得更少。
对付非常小的数据集,贝叶斯方法常日是最好的,只管结果可能对你之前的选择很敏感。我认为朴素贝叶斯分类器和岭回归是最好的预测模型。
当涉及到小型数据集时,你须要具有很少参数(低繁芜性),或者是强先验的模型。你还可以将\公众先验\"大众阐明为关于数据行为的假设。
例:
线性模型,如线性/逻辑回归。该模型不仅简化了参数的打算,而且它只假设了线性的相互浸染;大略的贝叶斯算法就能得到这样一个朴素贝叶斯法,在这个算法中,你也只有很少的参数,而且可以直接得到你的先验值;根据业务问题的确切性子和数据集的大小,确实存在许多其他办理方案。
迁移学习
定义:在构建机器学习模型时利用现有干系数据或模型的框架。
迁移学习利用从学习任务中得到的知识来改进干系任务的性能,常日须要减少所需的演习数据量。
迁移学习技能非常有用,由于它们许可模型利用从另一个数据集或现有机器学习模型(源域)学到的知识来预测新领域或任务(称为目标域)。
当你没有足够的目标演习数据,并且源域和目标域有一些相似之处但又不完备相同时,就该当考虑迁移学习技能。
一味地聚合模型或不同的数据集并不总是有效的。如果现有的数据集与目标数据非常不同,那么新学习者可能会受到现有数据或模型的负面影响。
当你有其他可以用来推断知识的数据集时,迁移学习的效果很好,但是当你完备没有数据时会发生什么呢?这便是数据天生可以发挥浸染的地方。当没有可用的数据时,或者当你须要创建的数据超过你通过聚合聚拢的数据时,就会利用它。
在本例中,对确实存在的少量数据进行了修正,以在该数据上创建变量来演习模型。例如,可以通过裁剪和缩小汽车的单个图像天生汽车的许多图像。
遗憾的是,缺少高质量的标记数据也是数据科学团队面临的最大寻衅之一,但是通过利用诸如传输学习和数据天生等技能,有可能战胜数据稀缺的问题。
迁移学习的另一个常见运用是在跨客户数据集上演习模型,以战胜冷启动的问题。我把稳到SaaS公司在将新客户引入他们的ML产品时常常要处理这个问题。实际上,除非新客户网络了足够的数据来实现良好的模型性能(这可能须要几个月的韶光),否则很难供应代价。
数据扩充数据扩充意味着增加数据点的数量。在我的最新项目中,我们利用数据增强技能来增加数据集中的图像数量。对付传统的行/列格式数据,它意味着增加行或工具的数量。
我们别无选择,只能依赖数据增强,缘故原由有两个:韶光和准确性。每个数据网络过程都与一个成本相关联。这种本钱可以是美元、人力、打算资源,当然还有过程中花费的韶光。
数据网络过程/韶光磨练+打算资源+金钱
因此,我们必须增加现有数据,以增加供应给ML分类器的数据大小,并补偿进一步网络数据所涉及的本钱。
增加数据的方法有很多。
在我们的示例中,你可以旋转原始图像,改变光照条件,以不同的办法裁剪它,因此对付一个图像,你可以天生不同的子样本。这样,你就可以减少对分类器的过度拟合。
然而,如果你利用过采样方法(比如SMOTE)天生人工数据,那么你很可能引入过度拟合。
过拟合:过拟合模型是一种趋势线的模型,该趋势线反响了它所演习的数据中的偏差,而不是准确地预测看不见的数据。
在开拓人工智能办理方案时,必须考虑这一点
合成数据
合成数据是指包含与\"大众真实\"大众对应的模式和统计属性相同的假数据。基本上,它看起来如此真实,以至于险些不可能说它不是。
那么,合成数据的意义是什么呢?如果我们已经得到了真实的数据,那么为什么这很主要呢?
我看到运用了合成数据,特殊是在处理私有数据(银行、医疗保健等)时,这使得在某些情形下利用合成数据是一种更安全的开拓方法。
合成数据紧张用于没有足够的实际数据,或者没有足够的实际数据用于你理解的特定模式。 它的用法大致相同,用于演习和测试数据集。
合成少数过采样技能(SMOTE)和Modified-SMOTE是天生合成数据的两种技能。 大略地说,SMOTE采取少数类数据点并创建位于由直线连接的任何两个最近数据点之间的新数据点。
该算法打算特色空间中两个数据点之间的间隔,将间隔乘以0到1之间的一个随机数,并将新数据点放在间隔打算所用数据点之一的新间隔上。
为了天生合成数据,你必须利用一个演习集来定义一个模型,这将须要验证,然后通过变动感兴趣的参数,你可以通过仿真天生合成数据。域/数据类型非常主要,由于它影响全体流程的繁芜性。
优点:
没有版权问题的风险可以理解一个特定的观点缺陷:
引入偏见的风险很难明得真实的数据问题在我看来,问问你自己是否有足够的数据会揭示出你可能从未创造过的抵牾。它将帮助突出你认为完美的业务流程中的问题,并使你理解为什么它是在你的组织中创建成功的数据策略的关键。
本文系作者个人观点,不代表本站立场,转载请注明出处!