解读在校园招聘中人工智能常考的笔试题_神经收集_函数
来源:机器学习算法工程师
本文约3100字,建议阅读9分钟
本文作者与你分享人工智能校招履历。疫情下,觉得要爆发金融危急了啊,事情都可能找不到了,赶紧梳理下之前的笔试题,给大家个参考。
想了想当初,口试是在阳台上进行的,中午刚睡醒,然后便是开始自我介绍,然后便是大略的寒暄。
然后根据简历,问我的项目细节,问我利用的哪个卷积神经网络模型,为什么选择这个模型,常日都有哪些模型。
1. 深度学习和过往的神经网络演习方法有什么差异?列举几种深度学习的loss function,并解释意义。深度学习是一种方法,神经网络是个模型,深度学习方法呢可以有效办理层数多的神经网络不好学习的问题,为了让层数较多的多层神经网络可以演习,能够起浸染并蜕变出来的一系列的新的构造和新的方法;
构造:一样平常分为两大阵营,CNN,RNN,觉得这里不当,请示正;方法:权重初始化方法(逐层初始化,XAVIER等),丢失函数,防止过拟合方法(Dropout, BN等)。这些方面紧张都是为理解决传统的多层神经网络的一些不敷:梯度消逝,过拟合等。
分类问题常用的丢失函数:
交叉熵丢失函数,也称作softmax丢失函数,可用于办理多分类问题,通过指数化将输出转换成概率的形式;合页丢失函数,一样平常情形下,交叉熵丢失函数的效果优于合页丢失函数;坡道丢失函数,对离群点或者噪声的抗滋扰能力强,是一种鲁棒性的丢失函数,对偏差较大的区域会进行截断;大间隔丢失函数,担保能够精确分类的同时,还知足增大类间的差异,提升了特色的分辨能力,防止网络发生过拟合;中央丢失函数,担保能够精确分类的同时,还知足减少类内的差异,提升了特色的分辨能力。回归问题常用的丢失函数:
l1丢失函数,衡量的是预测值与真实值之间的偏差;l2丢失函数,效果优于l1;tukey‘s biweight丢失函数,是一种具有鲁棒性的丢失函数。其他任务的丢失函数:
KL散度丢失函数,衡量的是样本标记分布与真实标记分布的差异,可用于年事估计等。2. 什么是卷积神经网络?请解释卷积的意义分开看就明确了,“卷积” 和 “神经网络”。卷积也便是说神经网络不再是对每个像素的输入信息做处理了,而是图片上每一小块像素区域进行处理,这种做法加强了图片信息的连续性。使得神经网络能看到图形,而非一个点。这种做法同时也加深了神经网络对图片的理解。
详细来说,卷积神经网络有一个批量过滤器,持续不断地在图片上滚动网络图片里的信息,每一次网络的时候都只是网络一小块像素区域,然后把网络来的信息进行整理,这时候整理出来的信息有了一些实际上的呈现,比如这时的神经网络能看到一些边缘的图片信息。然后再以同样的步骤,用类似的批量过滤器扫过产生的这些边缘信息, 神经网络从这些边缘信息里面总结出更高层的信息构造,比如说总结的边缘能够画出眼睛,鼻子等等。
卷积的主要的物理意义是:一个函数(如:单位相应)在另一个函数(如:输入旗子暗记)上的加权叠加,这便是卷积的意义:加权叠加,不同的卷积核供应了不同的加权办法,从而得到鲁棒的特色,进行参数共享,大大减少了参数量,避免过拟合;
3. 什么是中文分词?列举出几种你所知的分词方法。中文分词便是将中文按语义分出词语来,与英文不同,中文词语之间没有空格,须要根据语义履历等知识来将一组汉字序列进行切分出一个个词语。
中文分词紧张分为三种:
机器分词法:是一种基于词典的方法,是将文档中的字符串与词典中的词条逐一匹配,如果在词典中找到了某个字符串,则匹配成功,可以切分,否则不予切分。该方法实现大略,利用性强,但对付词典的完备性哀求很高。基于语法和规则的分词方法:是在分词的同时进行句法和语义剖析,通过句法和语义信息来标注词性,以办理分词歧义的征象。但汉语语法笼统,繁芜,以是该种方法的精度不尽人意,目前仍处于试验阶段。基于统计的分词法:根据字符串在语估中涌现的统计词频来判断其是否构成一个词。词是字的组合,相邻的字同时涌现的次数越多越有可能成为一个词。该种方法因精度高,效果稳定,成为目前最盛行的一种方法,常见的分词模型有HMM,CRF,biLSTM+CRF等4. 现在深度学习在NLP领域有哪些运用?请详细解释。机器翻译,或神经机器翻译(NMT)在翻译中供应了统计办法之外的另一种办法,同时也更加简便。知识问答,问答机器人,可以用深度学习模型,从语估中学习得到一些问题的答案。自然措辞天生,能够根据一些关键信息及其在机器内部的表达形式,经由一个方案过程,来自动天生一段高质量的自然措辞文本。5. 传统图像处理提取的sift特色是什么意思?sift指的是scale invarient feature transform,即尺度不变特色变换。
sift特色是一种对缩放、旋转、光照变革等不敏感的局部图像特色,其提取过程是师长西席成图像的尺度空间,然后在尺度空间中检测极值点作为关键点,末了利用关键点邻域的梯度信息天生特色描述符。
6. 什么叫过拟合,避免过拟合都有哪些方法?答:过拟合:便是在机器学习中,我么测试模型的时候,提高了在演习数据集的表现力时候,但是在演习集上的表现力反而低落了。
办理方案:
正则化;在演习模型过程中,调节参数;学习率不要太大;对数据进行交叉验证;选择适宜演习凑集测试集数据的百分比,选取得当的停滞演习标准,使对机器的演习在得当;在神经网络模型中,我们可以减小权重。7. LR和SVM的联系与差异是什么?都是分类算法;如果不考虑核函数,LR和SVM都是线性分类算法,也便是说他们的分类决策面都是线性的;LR和SVM都是监督学习算法;LR和SVM的丢失函数不同;SVM只考虑局部的边界线附近的点 ,LR考虑全局,阔别的点对边界线的确定也起浸染。8. 给你一个有1000列和1百万行的演习数据集,这个数据集是基于分类问题的。经理哀求你来降落该数据集的维度以减少模型打算韶光,但你的机器内存有限。你会怎么做?(你可以自由做各种实际操作假设。)由于我们的RAM很小,首先要关闭机器上正在运行的其他程序,包括网页浏览器等,以确保大部分内存可以利用;我们可以随机采样数据集;这意味着,我们可以创建一个较小的数据集,比如有1000个变量和30万行,然后做打算;为了降落维度,我们可以把数值变量和分类变量分开,同时删掉干系联的变量;对付数值变量,我们将利用干系性剖析;对付分类变量,我们可以用卡方考验;其余,我们还可以利用PCA(主身分剖析),并挑选可以阐明在数据集中有最大偏差的身分;利用在线学习算法,如VowpalWabbit(在Python中可用)是一个不错的选择;利用Stochastic GradientDescent(随机梯度低落法)建立线性模型也很有帮助;我们也可以用我们对业务的理解来估计各预测变量对相应变量的影响的大小。但是,这是一个主不雅观的方法,如果没有找出有用的预测变量可能会导致信息的显著丢失。
9. 给你一个数据集,这个数据集有缺失落值,且这些缺失落值分布在离中值有1个标准偏差的范围内。百分之多少的数据不会受到影响?为什么?约有32%的数据将不受缺失落值的影响。
由于,由于数据分布在中位数附近,让我们先假设这是一个正态分布。我们知道,在一个正态分布中,约有68%的数据位于跟均匀数(或众数、中位数)1个标准差范围内,那么剩下的约32%的数据是不受影响的。因此,约有32%的数据将不受缺失落值的影响。
10. 真阳性率和召回有什么关系?写出方程式。真阳性率=召回。它们有相同的公式(TP / TP + FN)。
11. 在k-means或kNN,我们用欧氏间隔来打算最近的邻居之间的间隔。为什么不用曼哈顿间隔?我们不用曼哈顿间隔,由于它只打算水平或垂直间隔,有维度的限定。另一方面,欧氏间隔可用于任何空间的间隔打算问题。
由于,数据点可以存在于任何空间,欧氏间隔是更可行的选择。
例如:想象一下国际象棋棋盘,象或车所做的移动是由曼哈顿间隔打算的,由于它们是在各自的水平和垂直方向做的运动。
参考链接:https://morvanzhou.github.io/tutorials/machine-learning/tensorflow/5-03-A-CNN/https://www.zhihu.com/question/22298352/answer/34267457https://www.nowcoder.com/questionTerminal/42fe838421a84e279a67a0a16b874d29?source=relativehttp://www.elecfans.com/d/540309.htm
编辑:黄继彦
校正:林亦霖
—完—
关注清华-青岛数据科学研究院官方微信"大众年夜众平台“ THU数据派 ”及姊妹号“ 数据派THU ”获取更多讲座福利及优质内容。
本文系作者个人观点,不代表本站立场,转载请注明出处!