数据科学技能测试：快来看看你能通关吗？_数据_模子

2024-09-21 01:19:02 智能问答

图源：race.agency

数据科学技能测试：快来看看你能通关吗？_数据_模子智能问答

是时候展现真正的技能了！

以下是26个数据科学的问题和供参考的答案。
这些问题的难度和主题各不相同，但都与机器学习和数据科学干系。
不管是大学生还是专业人士，都可以来测试（或更新）一下自己的技能！

你，都能答上来吗？

图源‍：Giphy

1.如何区分机器学习、人工智能和数据科学？（主题：通识）

人工智能这一术语涵盖范围广泛，紧张涉及机器人学和文本分析等运用，并做事于商业和技能领域。
机器学习从属于人工智能，但其涉及领域较狭窄，且只用于技能领域。
数据科学并不完备从属于机器学习，而是利用机器学习来剖析并做出预测，可用于商业领域。

2.什么是正态分布？（主题：统计学、词汇）

正态分布，也称为钟形曲线，指大多数实例聚拢在中央，且实例数量随着距中央间隔的增加而减少这种分布情形。
严格来讲，统计学上，正态分布的定义是：66%的数据在均匀值的一个标准差内，95%的数据在均匀值的两个标准差内，99%的数据在均匀值的三个标准差内。

图源：Wikipedia

3.什么是推举系统？（主题：词汇）

推举系统是信息过滤系统的一个子类，旨在预测用户对产品的偏好或评级。
推举系统广泛运用于电影、新闻、科研文章、产品、音乐等领域。

4.不看聚类，如何选择k均值聚类算法中的k值？（聚类算法）

k均值聚类算法中，k值的选取有两种方法。
一种方法是手肘法，y轴指某个偏差函数，x轴指聚类的数量，如果全体图的形状像一个手臂的话，那肘部对应的值便是最佳的聚类数量。

显然，在上图中，肘部对应的k值便是3。
然而，如果曲线形状不足清晰，那就只能利用第二种方法，即轮廓系数法。
轮廓系数法指用范围在-1到1之间的轮廓系数来描述每个簇的数量，系数越大的聚类常日则为最佳聚类数。

5.线性回归和逻辑回归有什么差异？（主题：回归与分类算法）

线性回归是一种统计技能，指将数据拟合到一条线上（或多元线性回归中的一个多维平面）。
当目标值在连续尺度内时，就会发生回归。
逻辑回归可由线性回归通过sigmoid函数转换而成，并会给出一组输入值为分类0和1的概率。

6. 一种测试的真阳性率为100%，假阳性率为5%。
一个群体有千分之一的概率会在测试中涌现这种情形。
如果你有一个阳性测试，涌现这种情形的概率有多大呢？（主题：分类率）

假设你正在接管一项疾病测试，如果你患有此病，测试结果会显示你已患病。
但如果你未患病，5%的情形下，测试结果会显示你患有此病，95%的情形下，会显示你没有患病。

因此，在未患病的情形下，会有5%的偏差。
在1000人中，有1人会得到真正的阳性结果，而在剩下的999人中，5%的人会得到（假）阳性结果。
大约50人会得到该病的阳性结果。

图源：unsplash

也便是说，在1000人中，纵然只有1人患病，也会有51人的检测结果呈阳性。
但即便如此，你的患病几率也只有2%。

7.梯度低落法总是收敛于同一点吗？（主题：神经网络）

不，梯度低落法并不总是收敛于同一点。
由于偏差空间中可能存在多个局部极小值，根据其特性（例如动量或权重），梯度低落法可能会在不同的地方结束。

8.如何通过box-cox变换改进模型性能？（主题：统计学、算法）

Box-cox变换指将数据按照一定次幂进行转换，例如将其平方、立方或开方（即1/2次方）。
由于任何数的0次方永久是1，因此，box-cox变换中的“0次方”被认为是对数变换。

对数函数将指数函数放在线性尺度上，因而可以改进模型性能。
也便是说，线性回归之类的线性模型在数据方面性能更优胜。

此外，对函数进行平方和立方运算也有助于整理数据，或突出重点信息。

9.剖析项目中的关键步骤有哪些？（主题：组织）

· 理解业务问题以及剖析目标。

· 探索并熟习数据。

· 清理数据（检测离群值、缺失落值、转换变量等），准备好建模数据。

· 运行模型并对参数进行相应调度。

· 用新数据验证模型。

· 实行模型并得出相应结果。

10.什么是查全率和查准率？（主题：分类率）

查全率指“在所有的正样本中，有多少样本被分类为正样本”。
查准率指“在所有被分类为正的样本中，有多少样本是真正的正样本”。

11.阐明一下“维度谩骂”。
（主题：数据）

图源：unsplash

“维度谩骂”指的是在剖析具有许多特色的数据（高维数据）时涌现的某些征象，而这些征象在普通的二维或三维空间中不会涌现。
随着维数增加，数据会变得极其稀疏，因而无法通过机器学习等模型对所有值进行故意义的打算。

值得把稳的是，在极高维的空间中，两个样本间的欧氏间隔非常小，因此，任何必要打算两点之间间隔的统计方法或机器学习方法都不可行。
（这也是为什么在高维图像识别中首选卷积神经网络的缘故原由。
）

12.在韶光序列建模中，如何处理不同形式的时令性征象？（主题：韶光序列）

常日在真实天下的韶光序列数据中（比如，在玩具厂购买的泰迪熊），不同形式的时令性征象可能会相互滋扰。

年度的时令性（如圣诞节前后的旺季和夏天的低谷期）可能会与每月、每周、乃至每天的时令性征象重叠。
由于变量在不同韶光段的均匀值不同，导致韶光序列具有非平稳性。

去除时令性的最好方法便是对韶光序列进行差分，即取韶光x中的一个日期与x减去时令性周期后（一年或一月等）两者间的差值。
由于在前几个样本中，x减去时令性周期无法访问，因此丢失了一个时令性周期的原始数据。

年度和月度时令性征象的一个例子

13.人们普遍认为假阴性不如假阳性。
那么，假阳性不如假阴性的例子有什么？（主题：分类率、组织）

假设一家电商公司决定给可能会购买5000美元商品的顾客赠予一张1000美元的礼券。
如果该公司通过模型打算出假阴性结果，那公司就（缺点地）不会发送代金券，由于公司误认为该客户不会购买5000美元以上的商品。

虽然结果不妙，但公司并不亏损。
如果公司将代金券发给结果呈假阳性的客户（误以为该客户会购买代价5000美元以上的商品），那些购买不敷5000美元的人就会让公司亏损赔钱。

14.测试集和验证集的差异是什么？（主题：数据、组织）

测试集用于评估模型演习后的性能，而验证集用于在模型演习期间选择参数并防止演习集上涌现过拟合。

图源：unsplash

15.你在什么情形下会利用随机森林算法，什么情形下会利用支持向量机算法（SVM）？（主题：算法）

SVM和随机森林是两种强大的分类算法。
对付无离群的纯净数据，可以选择SVM；反之，则可以选择随机森林。

SVM（尤其是带有广泛参数搜索的SVM）须要进行更多的打算，因此如果内存有限的话，选择随机森林会更得当。
此外，随机森林算法适用于多类问题，而SVM算法适应于高维问题，如文本分类。

16.你会用哪些方法来补充缺失落的数据，如果填错会有什么后果？（主题：数据清理）

现实天下的数据每每会有缺失落。
补充这些数据的方法多种多样。
彻底的处理办法便是删除具有NA 值的行。
如果NA 值不是很多，并且数据充足，则这种方法可行；否则，则不可行。
在现实天下的数据中，删除带有NA 值的行可能会肃清部分可不雅观察到的模式。

倘若上述方法不可行，也可以根据详细情形，选择其他方法来添补缺失落数据，比如众数、中位数或均匀值。

另一种方法是通过k最近邻算法（KNN）打算丢失数据的临近数据，并选取这些临近数据的均匀值、中位数或众数来补充缺失落数据。
比起利用汇总值，这种方法灵巧度更高，规范性更强。

如果补充数据的方法利用不当，可能会涌现选择性偏差——模型的好坏与数据同等，如果数据有误，其模型也会受到影响。

图源：unsplash

17.什么是集成？集成有什么用？（主题：算法）

集成是对终极决定进行投票的算法组。
集成会选出瑕不掩瑜的模型，但成功的模型必须是多样化的。
也便是说，每个模型的缺陷必须各不相同。
研究表明，精确创建的集成，其性能每每远优于单分类器。

18.在将数据通报到线性回归模型前，须要对数据作哪些基本假设？（主题：算法）

数据应具有正态残差分布、偏差的统计干系性以及线性。

19.贝叶斯估计和最大似然估计的差异是什么？（主题：算法）

在贝叶斯估计中，模型具有先前的数据知识。
我们可以探求多个参数，如5个gammas和5个lambdas来阐明数据。
在贝叶斯估计中，有多个模型可以做出多个预测（每对参数一个，其先验知识相同）。
因此，如果想预测新的样本，只需打算预测的加权和就可以了。

图源：bjdataart

然而，最大似然估计不考虑先验概率，它与利用平坦先验的贝叶斯模型比较相似。

20. P值对数据来说意味着什么？（题目：统计学）

在统计学中，P值用于确定假设考验后结果的显著性，它可以帮助剖析器得出结论。
显著性水平每每在0到1之间。

· 如果p值小于0.05，解释谢绝零假设的情由充分，可以谢绝零假设。

· 如果P值大于0.05，解释谢绝零假设的情由不充分，不能谢绝零假设。

· 而0.05是临界值，表示两种情形都有可能发生。

21.何时利用均方偏差（MSE）和均匀绝对偏差（MAE）？（主题：精确度丈量）

MSE常用于“突出”较大的偏差。
由于x²的导数为2x，x越大，x与x-1的差值就越大。
然而，MAE常用于输出可阐明的结果。

因此，当结果不须要进行阐明，而只是作为数字（可能用于模型之间的比较）时，可以选择MSE；但是当结果须要进行阐明时（例如，模型均匀低落4美元旁边），选择MAE更佳。

22.什么是ROC曲线？什么是AUC？（主题：精确度丈量）

ROC曲线描述的是模型的假阳性率与真阳性率之间的关系。
完备随机预测的ROC曲线便是一条直对角线（图中的玄色虚线）。
最靠近坐标轴的曲线便是最优模型。

AUC是衡量ROC曲线与坐标轴之间间隔的一项指标，即曲线下的面积。
曲线下的面积越大，则性能越好。

23.阐明一下偏差方差平衡，并列举高偏差和低偏差算法的示例。
（主题：算法）

偏差指的是由于机器学习算法过度简化而在模型中引入的偏差。
偏差会导致欠拟合。
如果在欠拟合时演习模型，模型会做出简化的假设，使目标函数更易于理解。

低偏差的机器学习算法有决策树、KNN、SVM等。
高偏置的机器学习算法有线性回归和逻辑回归。

方差指的是由于机器学习算法较为繁芜而在模型中引入的偏差。
有时模型会从演习数据集中学习噪声数据，导致在测试集中表现不佳。
方差会导致高灵敏度和过拟合。

常日，当模型的繁芜度增加时，模型中低偏差导致的偏差就会减少。
然而，当繁芜度增加到某个特定点时，模型就会发生过拟合。

24.什么是PCA以及PCA有什么用？（主题：算法）

主身分剖析（PCA）是一种降维方法，通过探求n个正交向量来表示数据中的最大方差，个中n是数据降至的维度。
n个向量可用作新数据的维度。
PCA可以帮助加快机器学习算法的速率，或者用于高维数据的可视化。

25.为什么在繁芜的神经网络中，Softmax非线性函数每每最后进走运算？（主题：神经网络）

这是由于Softmax非线性函数输入实数向量后会返回概率分布。
设x是一个实数向量（正或负），那Softmax函数就会输出一个概率分布：每个元素都是非负的，且所有元素的和为1。

图源：unsplash

26.什么是TF/IDF向量化？（主题：NLP）

TF-IDF是术语“词频-逆文本频率指数”的缩写。
它是一种数字统计方法，用以反响一个字词对语料库中一份文档的主要性。
在信息检索和文本挖掘中，它常被用作权重因子。

TF-IDF值与字词在文档中涌现的次数成正比增加，与字词在语料库中涌现的频率成反比低落，这有助于在某些字词涌现频繁时进行调度。

你做对了几个？这些问题覆盖主题广泛，从神经网络到数据洗濯，从SVM到NLP，从分类率到统计学。
不熟习的话得好好复习啦！

留言点赞关注

我们一起分享AI学习与发展的干货

如转载，请后台留言，遵守转载规范

本文系作者个人观点，不代表本站立场，转载请注明出处！

数据模型

数据科学技能测试：快来看看你能通关吗？_数据_模子

热门内容

随机文章

推荐内容

最新内容

TAGS标签

数据科学技能测试：快来看看你能通关吗？_数据_模子

相关推荐

jQuery表格分页技术的魅力与应用

UNIX系统中的代码段与数据段系统稳定运行的关键

数字时代下的数据安全挑战与应对步骤

数据挖掘源代码数据背后的秘密

百度云盘代码背后的秘密与未来展望

栏目热门

热门内容

随机文章

推荐内容

最新内容

TAGS标签