听到面试总是让我们感到紧张。但是我们都非常清楚,整个过程值得为之付出努力,因为你最终可能会得到梦想中的工作。机器学习面试题也不例外;事实上,它是当今需求量很大的热门文章之一,获得更好的职位需要大量的准备和毅力。
如果你考虑为一切做好准备,你可能会陷入巨大的困惑。你需要做的是专注于能够阐明所有核心概念的主要主题。这些机器学习面试问题将帮助你应对即将到来的面试,本文包括详细的机器学习面试题解析。
顶级机器学习面试题和答案合集
让我们深入研究下面的顶级机器学习面试问题和答案:
问题:什么是机器学习?它与人工智能有何不同?
答:机器学习是一个机器可以从其实验中执行的过程。数据集被输入到能够从数据集中学习的程序中。然后在输出中,它知道如何识别适合该数据集的事物,即使他们在程序上的机器以前从未见过该示例。ML 致力于模式识别;另一方面,人工智能展示了智能的概念,是关于训练一个系统来对任何人脑的行为做出反应。
问题:定义在机器学习中构建模型的三个阶段。
答:在 ML 中构建模型的三个阶段是:
- 建筑模型
为模型选择合适的算法并根据需求进行训练。
- 模型测试
通过使用数据集进行测试来检查数据的准确性
- 应用模型
在测试后进行所需的更改并将最终模型用于实时项目
问题:用例子解释参数模型?它们与非参数模型有何不同。
答案:机器学习常见的面试题有哪些 - 具有有限数量参数的模型是参数模型。我们需要知道模型的参数来预测新数据——例如,线性回归、逻辑回归和线性 SVM。
具有无限数量参数的模型是非参数模型,具有更大的灵活性。我们需要知道模型的参数和观察到的数据状态来预测新数据——例如,决策树、k-最近邻和使用潜在狄利克雷分析的主题模型。
问题:区分 I 型和 II 型错误。
回答:
- I类错误:拒绝正确的原假设,属于严重错误,也称为假阳性。发生此错误的概率是显着性水平。它声称某事发生了,而实际上并没有发生。
- 第二类错误:接受错误的零假设。发生这种错误的概率主要取决于样本量和总体方差。如果主题由于硬采样或高可变性而难以测试,则更可能发生此错误。拒绝错误零假设的概率是 1- 也就是检验的功效。它声称什么都没有发生,而某事已发生。
问题:机器学习的类型有哪些?区分它们。
机器学习面试题解析:
监督学习 | 无监督学习 | 强化学习 | |
定义 | 通过标记数据进行教学。 | 使用未标记的数据在没有任何指导的情况下进行教学。 | 它是通过与周围环境互动自学来教授的。 |
问题类型 | 回归和分类 | 关联和聚类 | 奖励为本 |
数据类型 | 标记数据 | 未标记的数据 | 无预定义数据 |
训练 | 涉及外部监督。 | 不涉及监督 | 不涉及监督 |
方法 | 将标记的输入映射到输出。 | 通过理解模式发现输出。 | 发现输出的跟踪和错误方法。 |
流行算法 | 线性回归,KNN | K-均值,C-均值 | Q-学习 |
你可以在此处详细了解监督学习和无监督学习。
机器学习面试题和答案合集:解释泛化、过拟合和欠拟合
回答:
概括
模型是在数据集上构建和训练的,以便它可以对看不见的数据进行准确的预测。如果经过训练的模型能够做出这些准确的预测,我们可以说该模型是从训练集泛化到测试集。
过拟合
当模型过于接近训练集的特性并获得在训练集上运行良好但不能泛化到新数据的模型时,就是过度拟合的情况。简而言之,模型在训练时被赋予了许多特征,它变得混乱并给出了错误的分析输出。
欠拟合
当模型太简单并且没有涵盖数据的所有方面和可变性时,该模型可能在训练集上表现不佳。这种选择过于简单的模型是欠拟合的。
问题:什么是归纳机器学习?
回答:
归纳机器学习涉及通过实例学习的过程,其中系统试图从一组观察到的实例中归纳出一般规则。
归纳机器学习是一个归纳步骤,你可以在其中从给定的数据集中学习模型。
问题:列举一些用于并行运行机器学习算法的工具。
答:一些工具是:
- GPUs
- Matlab
- Map Reduce
- Spark
- Graphlab
- Giraph
- Vowpal
问题:因果关系和相关性有什么区别?举例说明。
答:因果关系是两个变量之间的关系,使得另一个变量的出现导致其中一个变量的出现。
相关性是两个相互关联但不是相互引起的变量之间的关系。
例如,通货膨胀导致汽油和杂货的价格波动,因此通货膨胀与两者之间存在因果关系。在汽油和杂货之间,存在一种相关性,即两者都可以因通货膨胀的变化而增加或减少,但两者都不会引起或影响另一个。
问题:定义抽样。为什么我们需要它?
答:抽样是从目标人群中选择一个子集作为其代表的过程。我们使用样本中的数据来了解整个社区的模式。抽样是必要的,因为我们通常无法在合理的时间内收集或处理完整的数据。可以使用多种技术进行采样;其中一些是随机抽样、分层抽样和聚类抽样。
问题:说明分类和回归之间的区别
答:分类是一种监督学习技术,其中输出标签是离散的或分类的。另一方面,回归是一种监督学习技术,用于预测或连续或实值变量。
例如,预测股票价格是一个回归问题,因为股票价格是一个可以取实值的连续变量,而预测电子邮件是否是垃圾邮件是一个分类问题,因为在这种情况下,该值是离散的并且只有两个可能的好处是或否。
问题:什么是分层抽样?
回答:分层抽样是一种概率抽样技术,其中整个人口被分成称为层的不同子组,而不是按比例从每一层抽取概率样本。例如,在二元分类的情况下,如果正负标记数据的比例为 9:1,那么在分层抽样中,你将从每个正负标记数据集中随机选择子样本,这样采样后比例保持不变9:1。
问题:定义置信区间
回答:这是一个区间估计,可能包含一个未知的总体参数,估计范围是从给定的样本数据集计算出来的。这是你确定变量的真实值所在的值范围。
问题:定义条件概率。
答案:条件概率是给定一个事件发生的可能性的度量。让我们考虑给定 A 和 B 的两个事件,那么在给定 B 已经发生的情况下,A 的条件概率为:
where 代表交叉点。因此,条件概率是两个事件的联合概率除以事件 B 的概率。
问题:解释什么是贝叶斯定理以及它为什么有用?
机器学习面试题解析:该定理用于根据与其相关的其他事件的先验知识来描述事件发生的概率。例如,可以在显示的症状上发现一个人患有特定疾病的概率。
贝叶斯定理在数学上表述为:
其中 A 和 B 是事件,P(B) ≠ 0。大部分类型我们想找到 P(A|B),但是我们知道 P(B|A),所以我们可以使用贝叶斯定理来找到缺失的值。
问题:真阳性率和召回率有什么关系?
答: True Positive Rate 与 Recall 相同,也称为灵敏度。计算它们的公式:
其中 TP = 真阳性,FN = 假阴性。
问题:什么是概率图模型?
回答:概率图模型是一个强大的框架,它表示图结构中随机变量之间的条件依赖性。它可用于对大量相互之间具有复杂相互作用的随机变量进行建模。
问题:图形模型的两种表示是什么?区分它们。
答案:机器学习常见的面试题有哪些 - 分布的图形表示的两个分支是马尔可夫网络和贝叶斯网络。它们都在它们可以编码的独立性集合上有所不同。
- 贝叶斯网络:当模型结构是有向无环图(DAG)时,模型表示所有随机变量的联合概率的因式分解。贝叶斯网络捕获随机变量之间的条件独立性并减少估计联合概率分布所需的参数数量。
- 马尔可夫网络:当模型的底层结构在无向图中时使用。它们遵循马尔可夫过程,即给定当前状态,未来状态将独立于过去状态。马尔可夫网络表示节点序列的分布。
问题:k-Nearest Neighbor (k-NN) 算法与 k-Means 算法有何不同?
回答:
- 这些算法之间的根本区别在于,k-NN 是一种有监督的算法,而 k-Means 是无监督的。
- k-NN是分类算法,k-Means是聚类算法。
- k-NN 尝试根据其“k”个周围邻居对观察进行分类。它也被称为懒惰的学习者,因为它在训练阶段完全不做任何事情。另一方面,k-Means 算法将训练数据集划分为不同的集群,以便所有数据点都来自其他集群。该算法试图在集群之间保持足够的可分离性。
机器学习面试题和答案合集:KNN 与 k-means 聚类有何不同?
回答:
神经网络 | k均值聚类 |
用于分类的监督学习算法。 | 用于聚类的无监督方法。 |
数据被标记用于训练。 | 没有标记数据,机器自己训练。 |
“k”指的是目标标签的最近邻居的数量。 | k 是簇数,在算法开始时设置 |
当算法给出尽可能高的准确度时,算法停止。 | 当没有更多的簇从一个簇移动到另一个簇时,就称该算法是完整的。 |
我们可以使用混淆矩阵和交叉验证来优化算法。 | 可以使用轮廓和肘部方法进行优化。 |
问题:定义 F 检验。你会在哪里使用它?
答案: F 检验是任何统计假设检验,其中检验统计量在零假设下遵循 F 分布。如果你有两个模型已拟合到一个数据集,你可以使用 F 检验来确定最适合样本总体的模型。
问题:什么是卡方检验?
答案:卡方是任何统计假设检验,其中检验统计量在零假设下遵循卡方分布(标准正态偏差平方和的分布)。如果变量是独立的,它衡量观察到的数据分布与预期分布的拟合程度。
问题:什么是 p 值?它为什么如此重要?
答案: p 值表示执行最小统计检验时的边际显着性水平。它提供了可以拒绝零假设的最小重要性级别。小的 p 值(通常 <= 0.05)意味着有强有力的证据反对原假设,因此,你可以拒绝原假设。显着的 p 值 (>0.05) 表示反对原假设的证据较弱,因此不能拒绝原假设。p 值越小,可以拒绝原假设的显着性越高。
问题:解释 ROC 曲线的工作原理。
答案: ROC 曲线或接收者操作特征曲线是所有分类阈值的分类模型性能的图形表示。该图显示了两个参数,即不同分类阈值下的真阳性率(TPR)和假阳性率(FPR)。典型的ROC曲线如下:
其中纵轴为 TPR,横轴为 FPR。降低阈值会将更多项目归类为正,从而增加 TP 和 FP。为了计算 ROC,我们使用称为 AUC(曲线下面积)的排序算法,该算法测量曲线下方的整个二维区域。
问题:定义准确率和召回率。
答:准确率和召回率是用于评估分类算法性能的度量。在完美分类器中,精度和召回率等于 1。精度是检索到的实例中相关实例的比例,而召回率是相关实例中检索到的实例的比例。
Precision = true positive/(true positive + false positive)
Recall = true positive/(true positive + false negative)
问题:L1 和 L2 正则化有什么区别?
答: L1 和 L2 正则化都是为了避免过拟合。L1 尝试计算中位数,而 L2 计算相同数据的平均值。L1 也称为套索和 L2,岭正则化技术。
在 L1 正则化中,不重要的特征被剔除,从而只选择最相关的特征。在 L2 中,损失函数试图通过从数据分布的平均值(均值)中减去损失来最小化损失。
问题:机器学习模型中的“训练集”和“测试集”有什么区别?
回答:每当我们获得一个数据集时,我们将数据分成两组——训练和测试。通常,70-80% 的数据用于训练,其余用于测试。训练数据集用于创建或构建模型。测试数据集用于评估和查找模型的准确性。
问题:如何处理数据集中丢失或损坏的数据?
答:有很多方法可以做到这一点:
- 删除或删除丢失的行或列。
- 用另一个值替换它们。
- 如果看到趋势/模式,则为他们分配一个新类别。
问题:监督式机器学习在现代企业中有哪些应用?
答:监督学习有很多实际应用:
- 图像分类
- 推荐系统
- 动态定价
- 客户细分
- 识别最有价值的客户(客户生命周期价值建模)
问题:什么是半监督机器学习?
答:半监督学习是一种混合了监督和无监督学习机制的方法。它结合了少量标记数据和大量未标记数据,以用于训练目的。语音识别是半监督学习的一个很好的例子。当你没有足够的数据时,这种类型的 ML 方法会有所帮助,并且可以使用这些技术来增加训练数据的大小。
问题:什么是无监督机器学习技术?
答:当我们没有标记数据时使用无监督学习方法,即只有输入是已知的,而输出是未知的。使用未标记的训练数据集识别和建模模式、趋势和基础结构。无监督学习方法更准确和可预测。最流行的算法是用于探索性数据分析 (EDA) 的聚类分析,以获取模式、分组和趋势。
问题:什么是 F1 分数?
答: F1 分数是衡量模型准确性的指标。它是模型精度和召回率的加权平均值。结果范围在 0 到 1 之间,0 是最差的模型,1 是最好的模型。F1分数广泛应用于信息检索和自然语言处理领域。
问题:什么是贝叶斯分类器?
答:贝叶斯分类器是一种概率模型,它试图最小化训练数据集的错误分类概率,它计算给定类别标签的特征值的概率,并在测试数据集中使用此信息来预测给定类别的类别使用贝叶斯规则的特征值。
问题:在朴素贝叶斯定理的背景下解释先验概率、似然和边际似然。
答:先验概率是数据集的因(二元)变量所占的比例。这是你可以对该课程做出的最接近的猜测,无需任何进一步信息。例如,考虑一个具有因变量二进制、垃圾邮件或非垃圾邮件的数据集。垃圾邮件的比例为 75%,而非垃圾邮件的比例为 25%。因此可以估计新电子邮件是垃圾邮件的可能性为 75%。
似然是在存在一些其他变量的情况下将给定观察分类为准确的概率。例如,垃圾邮件中使用“CASH”这个词的概率就是一个可能性。
边际可能性是在任何消息中使用“现金”一词的概率。
问题:什么是混淆矩阵?解释一个二类问题
答案:机器学习面试题和答案合集 - 混淆矩阵表布局描述了模型在测试数据集上的性能,其有效值是已知的。对于二元或 2 类分类,可以取两个值,0 或假和 1 或实,混淆矩阵可以绘制为:
预测值 0 | 预测值 1 | |
实际值 0 | Real Negative (TN) | False Positive (FP) |
实际值 1 | False Negative (FN) | Real Positive (TP) |
问题:如何根据训练集的大小选择分类器?
回答:机器学习常见的面试题有哪些 - 如果训练集很小,高偏差/低方差模型,例如朴素贝叶斯,往往表现更好,因为它们不太可能过拟合。另一方面,如果训练集很大,那么低偏差/高方差模型(例如 Logistic 回归)往往表现更好,因为它们可以反映更复杂的关系。
问题:术语决策边界是什么意思?
答:决策边界或决策面是一个超曲面,它将底层特征空间划分为两个子空间,每个子空间一个。如果决策边界是超平面,则类是线性可分的。
在上图中,红线是将绿色圆形实例与蓝色方形实例分开的决策边界。
问题:定义熵?
答案:熵是与随机变量 Y 相关的不确定性的度量。它是传达变量值所需的预期位数。
其中 P(y) 是 Y 具有值 y 的概率,对于决策树,熵用于在任何节点找到最佳特征分割。
问题:什么是决策树?
机器学习面试题解析:决策树使用树状结构,作为预测模块来明确表示决策和决策制定。决策树的每个内部节点都是一个特征,来自该节点的每个正在进行的边代表该函数可以采用的值。
在某些特征的情况下,出边的数量是该类别中不同值的数量。在数值特征的情况下,出边的个数一般为2个,一个是特征值小于实值量,另一个是更高。
在下图中,我们有一个二进制输出变量,其值为 yes 或 no,并且具有职业、资助和养老金的某些特征。职业是本质特征,基于它的好处,决策树特征分支出来,最终预测输出。
问题:你对信息增益的理解是什么?
答案:信息用于识别分割给定训练数据集的最佳特征。它为训练集 D 选择最能减少输出 Y 的条件熵的分裂 S。简而言之,信息增益是熵 H 在对特征进行分裂时从先前状态到新状态的变化:
我们计算所有特征的信息增益,并选择增益最高的特征作为所有特征中最重要的特征。
问题:什么是修剪,为什么它很重要?
答:剪枝是一种通过从中移除子树来降低最终分类器复杂度的技术,子树的存在不会影响模型的准确性。在修剪过程中,你会生长完整的树,然后反复修剪一些节点,直到进一步修剪有害。这是通过评估修剪每个节点对调整数据集准确性的影响并贪婪地删除最能提高调整数据集准确性的节点来完成的。
修剪决策树的一种直接方法是对到达叶子的训练示例的数量施加最小值。修剪使树保持简单,而不会影响整体准确性。它通过减小树的大小和复杂性来帮助解决过拟合问题。
问题:带我了解 k-最近邻算法
答: k-NN 是一种惰性学习器算法,这意味着它在训练时不做任何事情。以下是测试时执行的步骤。对于任何新的测试示例,k-NN
- 首先计算它与训练数据集中所有示例的距离。
- 然后选择范围最小的 k 个训练样本
- 并通过从选定的训练示例中选择出现次数最多的标签(在分类的情况下)或通过计算它们(在回归的情况下)来预测测试示例的输出标签
问题:k 的值如何随偏差和方差变化?
回答: k 的显着值意味着模型更简单,因为它会取大量训练示例的平均值。因此,通过增加 k 的值,方差会减少。更简单的模型意味着欠拟合并导致高偏差。相反,较小的 k 值意味着测试样例仅依赖于少量训练样例,因此会导致高方差和低偏差。
问题:如果数据集中存在噪声,你将如何改变 k。
答:我们应该增加 k 来处理任何噪音。相当大的 k 值会平均或消除给定数据集中的任何噪声或异常值。
问题:如何加快模型的分类/预测时间?
答: k-NN 的计算时间有两种改进方式。
- Edited Nearest Neighbor:不是保留所有训练实例,而是选择其中仍然可以提供准确分类的子集。使用前向选择或后向消除来选择实例的子集,它总是可以代表其他实例。
- K维树:它是一种用于执行最近邻和范围搜索的智能数据结构。kd树类似于决策树,除了每个内部节点存储一个数据实例并在具有高方差的特征的中值上进行分裂。
问题:定义逻辑回归
答:逻辑回归是一种用于分析数据集的统计方法,其中一个或多个独立的数据变量决定了只能具有有限数量值的结果,即响应变量是分类的。当响应变量为二元时,逻辑回归是分类问题的首选方法。
问题:如何训练逻辑回归模型?
答:我们使用逻辑函数来训练逻辑回归模型。给定输入数据 x、权重向量 w(自变量 x 的系数)和输出标签 y 的概率 P(y),逻辑函数计算如下:
如果 P(y) > 0.5,我们预测输出为 1,否则为 0。然后根据训练实例中的预测误差,通过在每次迭代中更新权重来重复整个过程。一旦我们达到足够好的精度或完成所有迭代器,该过程就会停止,并且最终的权重被用作预测测试实例结果的值。
问题:Logistic 回归中的链接函数是什么?
答案:链接函数提供了响应变量的预期值与线性预测变量之间的关系。Logistic 回归使用 Logit 作为其链接函数,即等式中的wx项。
问题:确定机器学习工程师最重要的才能?
答:机器学习允许计算机在没有明确编程的情况下进行自我学习。它帮助系统从经验中学习,然后从错误中改进。基于机器学习的智能系统可以从记录的数据和过去的事件中学习。要成为一名成功的机器学习工程师,需要深入了解统计学、概率、数据建模、编程语言以及 CS、ML 库和算法的应用以及软件设计。
问题:指出机器学习的首要意图?
回答:机器学习的首要目的如下所述,
- 该系统从已经建立的计算中获取信息,以提供有充分根据的决策和输出。
- 它在数据中定位某些模式,然后对其进行某些预测以提供有关问题的答案。
问题:谁被称为机器学习的发明者?
答: Arthur Samuel 被称为机器学习的发明者。他与 IBM 合作并开发了一个用于下棋的计算机程序。由于计算机中可用的存储设施较少,这个 1950 年代早期制作的程序得到了 Alpha-beta 剪枝方法的支持。因此开发了第一个机器学习,其中机器本身应用棋子在棋盘上的位置并提供评分功能。
问题:讨论机器学习的优势?
回答:机器学习是一个传统的概念,但由于其众多优势,它最近得到了发展。机器学习的一些显着优点如下:
- 毫不费力地识别趋势和模式:机器学习可以轻松地通过大量数据并识别某些人类无法知道的模式和趋势。
- 无需人工参与:机器学习包括赋予机器自行学习和改进预测和算法的能力。
- 不断改进:当机器学习处理的数据量增加时,机器学习表现出提高其准确性和效率的质量。
- 广泛的应用:机器学习为各种用户提供服务,可以为客户提供更多定制化的体验,也可以瞄准合适的客户群。
问题:机器学习的缺点是什么?
答:虽然机器学习有很多优点,但它也不是完美无缺的。机器学习几乎没有限制,如下所示:
- 数据获取:机器学习需要海量的数据进行操作,数据要求公正、质量好。
- 结果的解释:有时可能会出现与算法相关的结果的绝对解释相关的问题。因此,为此必须非常谨慎地选择算法。
- 高度易错性:由于该技术的自主、独立性,机器学习接口场景中很可能会出现错误。
问题:列出偏差和方差之间的差异?
答案:偏差是一种错误,因为要使用的学习算法中的假设不正确或过于简单。这会导致模型对数据不拟合,从而导致难以具有高预测准确度,并将知识从训练集泛化到测试集。
而方差是由于正在使用的学习算法中的高难度而发生的一种错误。这导致算法对训练数据的高度变化非常敏感,这可能导致模型过拟合数据。
问题:从术语深度学习中可以理解什么?
机器学习面试题解析:深度学习是人工智能中机器学习的一个细分领域,与神经网络有关。它具有从未标记或非结构化数据中无监督学习的网络能力。它也被称为深度神经网络或深度神经学习。它包含受人脑启发的算法,这些算法是从大量数据中学习的。它有助于指导计算机从经验中学习人类自然看到的东西。
问:F1分数有什么用?
答: 机器学习常见的面试题有哪些?F1是判断模型准确率的决定因素。该模型以 0 和 1 显示结果,其中 0 表示最差的模型,1 表示最好的模型。该模型一般用于自然语言处理和信息检索方面。F1 广泛用于机器学习,它不考虑真负。它通常用于真阴性没有任何主要作用的分类测试。
问题:突出显示生成模型和判别模型之间的差异?
答:生成模型的目的是从相同的分布和新的数据实例中生成新的样本,而判别模型则突出了不同类型数据实例之间的差异。它试图直接从数据中学习,然后对数据进行分类。
机器学习面试题和答案合集结论
我希望这本最重要的机器学习面试问题合集能帮助你顺利通过面试。此次面试可能令人生畏,也可能令人不知所措,因此我们为你提供上述问题的详细解释,以帮助你更好地准备并以出色的方式破解面试。