2020 年人工智能、数据科学、机械进修必知的术语_数据_模子
KDnuggets 已经策划过一系列关键术语的干系文章,包括机器学习、深度学习、大数据、自然措辞处理等等。进入 2020 年以来,Kdnuggets 还没有揭橥任何关于关键术语的文章,是时候重点先容一些人工智能、数据科学和机器学习术语了,在不断发展的环境中,我们现在都该当熟习这些术语。
因此,本文提到的这些术语包含了一些最近涌现的观点,以及最近可能被认为更加主要的现有观点。这些定义是 KDnuggets 团队的共同努力所得,包括 Gregory Piatesky 、 Asel Mendis 、 Matthew Dearing 和作者本人 Matthew Mayo 。
言归正题,本文列出了人们该当必知的前 10 个术语,后 10 个术语将不才一篇文章,这样,我们就可以节制该当必知的 20 个术语了。
AutoML自动机器学习(automated machine learning,AutoML)超过了相称广泛的任务鸿沟,可以合理地认为这些任务包含在机器学习管道中。
AutoML “办理方案”可以包括数据预处理、特色工程、算法选择、算法架构搜索和超参数调头等任务,或者这些不同任务的一些子集或变体。因此,现在可以将自动机器学习视为从仅实行单个任务(如自动特色工程),一贯到完备自动化的管道;从数据预处理,到特色工程,再到算法选择,等等。
换句话说,诚笃说,我最喜好的办法,如果像 Sebastian Raschka 所描述的那样,打算机编程是关于自动化的;而机器学习是“所有关于自动化的自动化”,那么自动机器学习便是“自动化关于自动化的自动化”。跟我来,看这里:编程是通过管理去世记硬背的任务来减轻我们的包袱;机器学习使打算机能够学习如何最好地实行这些去世记硬背的任务;自动机器学习许可打算机学习如何优化学习如何实行这些去世记硬背的动作的结果。
这是一个非常强大的想法,虽然我们以前不得不关心调度参数和超参数、手动实行工程特色、实行算法选择等等,但自动机器学习系统可以通过许多不同的可能方法学习,来调度这些过程以得到最佳结果的最佳办法。
“常规”编程是数据和规则的输入、答案输出;而机器学习是数据和答案输入、打消;自动机器学习包括自动优化一些约束,以从数据和规则答案中得到“最佳”,用任何你喜好的度量来定义“最佳”。
贝叶斯(Bayesian)贝叶斯方法使我们能够运用概率分布来对现实天下进行建模,并随着新数据的涌现而更新我们的信念。多年来,统计学家普遍采取频率(frequentist)论方法。贝叶斯方法适用于对只有少量数据的假设进行建模,而这些数据在频率论者眼中可能并不主要。
Brandon Rohere 的阐明是一个很好的例子,解释了贝叶斯方法的事情事理:
想象一下,你正在看电影,有影友掉了他们的票。你想引起他们的把稳。这是他们从后面看起来的样子。你无法分辨出他们的性别,只能说他们有长头发。你会喊“打扰一下,女士!
”或者“打扰一下,师长西席!
”鉴于你对你所在地区的男女发型的理解,你可能会认为这是女性。(在这种过于大略化的情形下,只有头发的长度和性别)。现在,考虑一种情形的变革,这个人正在排队上男厕。有了这些额外的信息,你可能会认为这是一个男性。这种知识和背景知识的利用是我们不假思虑就能做到的。贝叶斯推断是一种通过数学来捕捉这一点的方法,这样,我们就可以做出更准确的预测。
BERT 代表来自 Transformer 的双向编码器表示,是一种用于自然措辞处理的预演习技能。BERT 的差异于其他措辞表示的是双向演习对现有 Transformer 把稳力模型的运用。BERT 预先在旁边两个高下文中对未标记文本数据的深层双向表示进行预演习,从而得到一个只需添加一个层即可进行微调的措辞模型。BERT 在许多自然措辞处理任务上实现了最前辈的性能,包括问题回答和推理。BERT 和 Transformer 都是由 Google 开拓的。
直觉见告我们,在文本上双向演习一个措辞模型,而不是从左到右(或从右到左),将会产生更好的语感“理解”和词义感。双向性许可基于其周围环境的整体性来学习词义,而不是基于从一个方向“阅读”到给定单词涌现的点所能网络到的信息来做出决定。因此,在不同高下文中具有不同含义的单词可以分开处理,更好地表达它们的高下文含义(想一想 “bank” 的两个意思:河岸和银行)。
实际上,BERT 可以用于以词或句子嵌入的形式从文本中提取特色,或者 BERT 模型可以根据特界说务(如问题回答或文本分类)的额外数据进行微调。BERT 有几种不同大小的模型(参数数量),并且催生了其余一系列与 BERT 干系的模型,如 RoBERTa 和 DistilBERT 等。
有关利用 BERT 的完全处理和利用教程,请参阅 Chris McCormick 和 Nick Ryan 的精彩文章。
CCPA(加州消费者隐私法)CCPA,即 2020 年 1 月 1 日生效的《加州消费者隐私法》(California Consumer Privacy Act),对网络个人数据的企业以及剖析和处理此类数据的企业具有主要意义。它的意图与 GDPR(General Data Protection Regulation,《通用数据保护条例》)类似,但为加州消费者供应了更强有力的保护。CCPA 许可任何加州消费者哀求查看公司节制的关于他们的信息,以及与之共享这些信息的第三方的完全名单。加州的消费者还可以访问他们的个人数据,对***他们的个人数据予以谢绝,并哀求公司删除有关他们个人信息的任何部分。
它适用于任何网络消费者个人数据、在加利福尼亚州开展业务,并且知足以下至少一项哀求的企业:
年总收入超过 2500 万美元;购买或*** 50000 条或更多的加州消费者或家庭的的个人信息;其年收入的 50% 以上来自所发卖的加州消费者个人信息。有关更多信息,请参阅 CCPA 的 Wikipedia 条款。
数据工程师数据工程师卖力优化和管理组织数据的存储和检索。数据工程师将制订线路图,解释如何最好地获取数据并创建用于存储数据的数据库。他们常日会利用云做事来优化数据存储,并创建算法使数据变得故意义。数据工程师是技能性很强的角色,须要节制 SQL、数据库设计和打算机科学方面的高等知识。
越来越多的数据工程师通过云认证,在云中创建数据库,并在云环境中处理大型繁芜数据集,以扩展和优化数据检索。
DeepfakeDeepfake 是利用前辈的深度学习和天生对抗网络 GAN 技能创建的假造图像、***或音频。这项技能非常前辈,结果非常逼真,非常难以识别是否为假造。下面的***便是一个利用奥巴马形象和声音的 Deepfake 的例子:
***地址: https://youtu.be/cQ54GDm1eL0
Deepfake 最初是在色情行业中崭露锋芒的,将明星的面孔叠加到成人***上,但最近这项技能又有了进步,有了像 FakeApp 之类的运用,以及像 FaceSwap 和 DeepFaceLab 这样的最新开源替代品。
对付声音来说,以前须要几分钟的语音,但最近的技能,只需几秒钟的语音就能产生令人信服的语音模拟。2019 年 9 月,一家公司被骗了 24.3 万美元,骗子利用 Deepfake 技能来模拟该公司 CEO 的声音,这是该类网络犯罪的首例。
现在,Deepfake 的创建者和试图识别它们的网络公司之间正在展开武备竞赛。Facebook 和其他几家公司已经宣告,将投资 1000 万美元,用来发展识别 Deepfake 的技能。请保持当心,不要盲目相信你在网上所看到的统统,务必核实来源。
支配 / 生产模型在这个机器学习、深度学习和人工智能的时期,流程的终极目标是将其支配到终极消费者手中。可以通过 Web 支配模型的做事有很多,比如 Heroku、AWS、Azure、GCP、Github 等。不同的做事供应商有不同的本钱打算方法,所供应的做事亦略有不同。支配模型并将其投入生产,在一定程度上也须要一些前端和后端开拓的知识,并且能够在团队中协同事情。
许多模型现在正在利用云打算供应商进行支配,由于它们可以轻松地扩展到数百万用户,同时能够监控扩展到这种级别的本钱。生产中的模型许可组织将其货币化,并为客户创造更好的代价。
图神经网络数据科学家正在研究数据,成堆的数据。有些数据可能是原始的,也有可能是未经组织的,由于它们是通过“消防水龙带”流入的。其他数据可以是整洁有序(或经由精心策划的),在可管理的维度内进行格式化。有了这些“欧几里得(Euclidean)”数据集,如文本、图像和***,机器学习在文本天生、图像处理和人脸识别等运用中取得了很大的成功。将运行在一两个 GPU 上的深度学习模型与堆积如山的演习数据结合起来,在数据中创造隐蔽模式和故意义的特色的可能性彷佛是无限的。
那些干系性更强的数据呢?数据可以通过依赖关系相互连接。用户之间的交互可能会影响电子商务平台上的购买决策。药物创造的化学相互浸染是通过繁芜的反应相互联系描述出来的。社交网络是通过不断变革、不规则和无序的关系形成并发展起来的。人脑是建立在一个个相互联系的细胞上的,这些细胞通过缠绕在一起的意大利面条连接起来。
这类数据的关系可以建模为图,个中,数据点表示为节点,关系通过互联链路进行编码。包括深度学习在内的传统机器学习方法须要进一步推广,以便在非欧几里得的、基于图的空间中进行打算。虽然一些干系的事情是在更早的时候完成的,但图神经网络的观点是由 Margo Gori 和他的团队在 2005 年定义的,随后更多的研究扩展到了递归和卷积神经网络的图版本的开拓。深度学习研究目前正在积极地将图神经网络方法运用于意大利面条式数据源,这是一个该当在 2020 年密切关注的研究领域。
MLOps 与 AIOps在将软件开拓职员的流程与 IT 做事交付相结合的 IT 组织中, DevOps 取得了巨大的成功,这一术语已经被提升为当今的文化盛行语。在大多数盛行语扎根后不久,新的环境或适用领域就会紧随着炒作。
术语 MLOps 便是如此,它代表了通过与数据科学家和 IT 专业职员的有效互助来开拓和布书机器学习模型的最新最佳实践。对付许多数据科学家来说,在一个明确定义的开拓生命周期中事情该当是非常受欢迎的,由于正式的和自我教诲追踪(self-guided educational tracks)每每侧重于人工智能机器学习的根本,对付生产支配的哀求不那么熟习。
AIOps 将人工智能运用到组织的运营中,它引入了所有机器学习技能,从 IT 系统中提取故意义的见地。这种方法将人类的智能和人工智能算法相结合,以增强 IT 团队做出更好、更快的决策,实时相应事宜,并开拓优化的运用程序来促进更有效或自动化的业务流程。据 Gartner 的预测,到 2023 年,将有 30% 的大型企业 CIO 会专门利用 AIOps 来改进运营,从全体 IT 组织中 AIOps 的演化中,我们将会看到更多的东西。
迁移学习(Transfer Learning)考虑以下在演习机器学习模型时可能涌现的两个问题。第一个问题是,常日没有足够的演习数据来充分演习一个模型。第二个问题是,纵然(尤其是)存在足足数目标演习数据,演习过程常日也是非常耗费资源和韶光的。
如果考虑到机器学习模型常日是针对特界说务在特天命据上进行演习,并且结果模型是针对特界说务的,那么这些模型的最大潜力常日是无法发挥的。一旦数据和打算被用来演习模型,为什么不在尽可能多的情形下利用这个模型呢?为什么不把学到的东西迁移到新的运用程序中呢?高度优化的演习模型是否可以用于更广泛的任务分类呢?
迁移学习涉及到利用现有的机器学习模型,以便在模型最初未经演习的场景中利用。就像人类不会丢弃他们以前所学的统统,并在每次接管新任务重新开始一样,迁移学习许可机器学习模型将它在演习期间得到的“知识”移植到新任务中,从而扩展了原始模型所利用的打算和专业知识组合的范围。大略地说,迁移学习可以节省演习韶光并扩展现有机器学习模型的实用性。对付从头开始演习模型所需的大量演习数据不可用的任务,迁移学习也是一种非常宝贵的技能。
考虑到韶光和打算的花费,迁移学习许可我们更好地将模型的实用性最大化。关于演习数据不敷的问题,迁移学习许可我们采取针对潜在的大量数据进行演习的预演习模型,并根据可用的少量特界说务数据对其进行调度。迁移学习是一种有效的方法,可管理机器学习模型演习中两个明显的潜在缺陷,因此,它的运用越来越广泛也就不足为奇了。
关注我并转发此篇文章,私信我“领取资料”,即可免费得到InfoQ代价4999元迷你书!
本文系作者个人观点,不代表本站立场,转载请注明出处!