数据挖掘面试问题和答案合集:数据挖掘是从数据仓库或批量数据中提取有用信息的过程。本文包含数据挖掘最流行和最常见的面试问题及其详细答案。这些将帮助你破解数据科学家工作的任何面试。让我们开始吧。
1. 什么是数据挖掘?
数据挖掘面试题合集:数据挖掘是指从大量数据中提取或挖掘知识。换句话说,数据挖掘是发现大量复杂数据以发现有用模式的科学、艺术和技术。
2. 数据挖掘有哪些不同的任务?
在数据挖掘期间执行以下活动:
- 分类
- 聚类
- 关联规则发现
- 顺序模式发现
- 回归
- 偏差检测
3. 讨论数据挖掘项目的生命周期?
数据挖掘项目的生命周期:
- 业务理解:从业务角度理解项目目标,数据挖掘问题定义。
- 数据理解:初步收集数据并理解它。
- 数据准备:从原始数据构建最终数据集。
- 建模:选择并应用数据建模技术。
- 评估:评估模型,决定进一步部署。
- 部署:创建报告,根据新见解执行操作。
4.解释KDD的过程?
数据挖掘常见问题合集?数据挖掘被视为另一个常用术语的同义词,从数据中发现知识,或 KDD。在其他人看来,数据挖掘只是知识发现过程中的一个重要步骤,其中应用智能方法来提取数据模式。
从数据中发现知识包括以下步骤:
- 数据清理(去除噪音或不相关的数据)。
- 数据集成(可以组合多个数据源)。
- 数据选择(从数据库中检索与分析任务相关的数据)。
- 数据转换(通过对样本执行汇总或聚合功能,将数据转换或合并为适合挖掘的形式)。
- 数据挖掘(应用智能方法以提取数据模式的重要过程)。
- 模式评估(根据一些有趣的度量来识别代表知识的迷人模式)。
- 知识呈现(其中知识表示和可视化技术用于将挖掘的知识呈现给用户)。
5. 什么是分类?
分类是寻找一组描述和区分数据类或概念的模型(或函数)的处理,目的是能够使用模型来预测类标签未知的对象的类。分类可用于预测数据项的类别标签。然而,在许多应用程序中,人们可能喜欢计算一些缺失或不可用的数据值而不是类标签。
6.解释进化和偏差分析?
常见的数据挖掘面试题和答案有哪些?数据演化分析描述并建模行为随时间变化的对象的规律或趋势。尽管这可能涉及对时间相关数据的区分、关联、分类、表征或聚类,但这种分析的不同特征涉及时间序列数据分析、周期性模式匹配和基于相似性的数据分析。
在分析与时间相关的数据时,通常不仅需要对数据的总体演化趋势进行建模,还需要识别随时间发生的数据偏差。偏差是测量值与相应参考值(例如先前值或规范值)之间的差异。执行偏差分析的数据挖掘系统,在检测到一组偏差后,可能会执行以下操作:描述偏差的特征,尝试描述其背后的原因,并建议采取措施将偏差值带回其预期值.
7. 什么是预测?
预测可以被视为构建和使用模型来评估未标记对象的类别,或测量给定对象可能具有的属性的值或值范围。在这种解释中,分类和回归是两种主要的预测问题类型,其中分类用于预测离散值或标称值,而回归用于预测连续值或有序值。
8. 解释决策树分类器?
数据挖掘面试问题和答案合集:决策树是一种类似于流程图的树结构,其中每个内部节点(非叶节点)表示对一个属性的测试,每个分支表示测试的结果,每个叶节点(或终端节点)持有一个类标签. 树的最顶层节点是根节点。
决策树是一种分类方案,它从给定的数据集生成一棵树和一组规则,代表不同类别的模型。可用于开发分类方法的记录集通常分为两个不相交的子集,即训练集和测试集。前者用于生成分类器,后者用于衡量分类器的准确性。分类器的准确性由正确分类的测试示例的百分比决定。
在决策树分类器中,我们将记录的属性分为两种不同的类型。定义域为数值的属性称为数值属性,定义域为非数值的属性称为分类属性。有一个独特的属性称为类标签。分类的目标是建立一个简洁的模型,可以用来预测类别标签未知的记录的类别。决策树可以简单地转换为分类规则。
9. 决策树分类器的优点是什么?
- 决策树能够产生可理解的规则。
- 他们能够处理数字和分类属性。
- 它们很容易理解。
- 一旦建立了决策树模型,对测试记录进行分类的速度非常快。
- 决策树描述足够丰富,可以表示任何离散值分类器。
- 决策树可以处理可能有错误的数据集。
- 决策树可以处理可能有缺失值的处理数据集。
- 它们不需要任何先验假设。决策树是不言自明的,压缩后也很容易理解。也就是说,如果决策树的叶子数合理,非专业用户也能掌握。此外,由于决策树可以转换为一组规则,因此这种表示被认为是可理解的。
10. 解释数据挖掘中的贝叶斯分类?
贝叶斯分类器是一种统计分类器。他们可以预测类成员概率,例如,给定样本属于特定类的概率。贝叶斯分类是根据贝叶斯定理创建的。一个简单的贝叶斯分类器被称为朴素贝叶斯分类器,其性能可与决策树和神经网络分类器相媲美。贝叶斯分类器在应用于大型数据库时也表现出很高的准确性和速度。
11. 为什么模糊逻辑是 数据挖掘的重要领域?
基于规则的分类系统的缺点是它们涉及连续属性的精确值。模糊逻辑对于执行分类的数据挖掘系统很有用。它提供了在高抽象层次上工作的好处。一般来说,模糊逻辑在基于规则的系统中的使用涉及以下内容:
- 属性值更改为模糊值。
- 对于给定的新样本,可能会应用多个模糊规则。每个适用的规则都会为类别中的成员资格投票。通常,对每个投影类别的真值求和。
- 上面获得的总和被组合成一个由系统返回的值。这个过程可以通过用每个类别的真值和来加权并乘以每个类别的平均真值来完成。所涉及的计算可能更复杂,这取决于模糊隶属度图的难度。
12. 什么是神经网络?
神经网络是一组连接的输入/输出单元,其中每个连接都有一个与之相关的权重。在知识阶段,网络通过调整权重来获取能够预测输入样本的正确类标签。由于单元之间的连接,神经网络学习也被称为连接学习。神经网络涉及较长的训练时间,因此更适用于可行的应用程序。它们需要许多参数,这些参数通常最好凭经验确定,例如网络拓扑或“结构”。神经网络因其较差的可解释性而受到批评,因为人类很难理解学习权重背后的象征意义。这些特征首先使神经网络不太适合数据挖掘。
然而,神经网络的优势在于它们对噪声数据的高度容忍以及它们对未经训练的模式进行分类的能力。此外,新开发了几种算法,用于从训练有素的神经网络中提取规则。这些问题有助于神经网络在数据挖掘中进行分类的有用性。最流行的神经网络算法是 1980 年代提出的反向传播算法
13. 反向传播网络如何工作?
反向传播通过迭代处理一组训练样本来学习,将网络对每个样本的估计与实际已知的类标签进行比较。对于每个训练样本,修改权重以最小化网络预测与实际类别之间的均方误差。这些变化是在“向后”方向上进行的,即从输出层,通过每个隐藏层向下到第一个隐藏层(因此称为反向传播)。虽然不能保证,但一般情况下,权重最终会收敛,知识过程停止。
14.数据挖掘面试问题和答案合集:什么是遗传算法?
遗传算法是进化计算的一部分,进化计算是人工智能的一个快速发展的领域。遗传算法的灵感来自达尔文的进化论。这里进化出遗传算法解决的问题的解决方案。在遗传算法中,一组字符串(称为染色体或基因的基因型)对优化问题的候选解决方案(称为个体、生物或表型)进行编码,朝着更好的解决方案进化。传统上,解决方案以二进制字符串的形式表示,由 0 和 1 组成,其他编码方案也可以采用相同的方式。
15. 什么是分类精度?
分类准确率或分类器的准确率由正确分类的测试数据集示例的百分比决定。分类树的分类准确率= (1 – 泛化误差)。
16. 常见的数据挖掘面试题和答案有哪些?在数据挖掘中定义聚类?
聚类是将总体或数据点划分为多个组的任务,以使同一组中的数据点与同一组中的其他数据点更相似,而与其他组中的数据点不同。它基本上是基于对象之间的相似性和不同性的对象的集合。
17. 数据挖掘面试题合集:写一个分类和聚类的区别?[IMP]
参数 | 分类 | 聚类 |
---|---|---|
类型 | 用于有监督的需求学习 | 用于无监督学习 |
基本 | 根据对应的类标签对输入实例进行分类的过程 | 在没有类标签帮助的情况下根据实例的相似性对实例进行分组 |
需要 | 它有标签,所以需要训练和测试数据集来验证创建的模型 | 不需要训练和测试数据集 |
复杂 | 与聚类相比更复杂 | 与分类相比不太复杂 |
示例算法 | 逻辑回归、朴素贝叶斯分类器、支持向量机等。 | k-means聚类算法、Fuzzy c-means聚类算法、Gaussian (EM)聚类算法等。 |
18.什么是监督学习和无监督学习?【TCS面试题】
顾名思义,监督式学习有监督者作为教师。基本上,监督学习是指我们使用标记良好的数据来教授或训练机器。这意味着一些数据已经被标记为正确答案。之后,机器被提供一组新的示例(数据),以便监督学习算法分析训练数据(训练示例集)并从标记数据中产生正确的结果。
无监督学习是使用既未分类也未标记的信息训练机器,并允许算法在没有指导的情况下对该信息采取行动。在这里,机器的任务是根据相似性、模式和差异对未分类的信息进行分组,而无需事先对数据进行任何训练。
与监督学习不同,不提供任何老师,这意味着不会对机器进行任何培训。因此,机器被限制在自己寻找未标记数据中的隐藏结构。
19. 命名数据挖掘的应用领域?
- 金融数据挖掘应用
- 卫生保健
- 智力
- 电信
- 活力
- 零售
- 电子商务
- 超级市场
- 犯罪机构
- 企业受益于数据挖掘
20. 数据挖掘有哪些问题?
任何严肃的数据挖掘包都需要解决的一些问题
- 不确定性处理
- 处理缺失值
- 处理噪声数据
- 算法效率
- 将发现的知识限制为仅有用
- 结合领域知识
- 数据的大小和复杂性
- 数据选择
- 已发现知识的可理解性:数据与已发现知识之间的一致性。
21. 介绍一下数据挖掘查询语言?
数据挖掘常见问题合集?由 Han、Fu、Wang 等人提出的 DBQL 或数据挖掘查询语言。该语言适用于 DBMiner 数据挖掘系统。DBQL 查询基于 SQL(结构化查询语言)。我们也可以将这种语言用于数据库和数据仓库。这种查询语言支持即席和交互式数据挖掘。
22. 区分数据挖掘和数据仓库?
数据挖掘:它是在大数据集中寻找模式和相关性以识别数据之间关系的过程。数据挖掘工具允许商业组织预测客户行为。数据挖掘工具用于构建风险模型和检测欺诈。数据挖掘用于市场分析和管理、欺诈检测、企业分析和风险管理。
它是一种聚合来自一个或多个来源的结构化数据的技术,以便可以对这些数据进行比较和分析,而不是进行事务处理。
数据仓库:数据仓库旨在通过提供数据清理、数据集成和数据整合的平台来支持管理决策过程。数据仓库包含面向主题的、集成的、时变的和非易失性的数据。
数据仓库整合来自多个来源的数据,同时确保数据质量、一致性和准确性。数据仓库通过将分析处理与跨国数据库分开来提高系统性能。数据从各种数据库流入数据仓库。数据仓库的工作原理是将数据组织成描述数据布局和类型的模式。查询工具使用模式分析数据表。
23.什么是数据清除?
术语清除可以定义为擦除或删除。在数据挖掘的上下文中,数据清除是从数据库中永久删除不必要的数据并清理数据以保持其完整性的过程。
24. 什么是立方体?
数据挖掘面试问题和答案合集:数据立方体以汇总版本存储数据,这有助于更快地分析数据。数据以允许轻松报告的方式存储。例如,使用数据立方体 用户可能想要分析员工每周、每月的表现。在这里,月和周可以被视为立方体的维度。
25.OLAP和OLTP有什么区别?[IMP]
OLAP(在线分析处理) | OLTP(在线事务处理) |
---|---|
由来自各种数据库的历史数据组成。 | 仅包含面向应用程序的日常操作当前数据。 |
面向应用的日常是面向主题的。用于数据挖掘、分析、决策等。 | 它是面向应用的。用于业务任务。 |
数据用于规划、解决问题和决策。 | 这些数据用于执行日常的基本操作。 |
它显示了当前业务任务的快照。 | 它提供了不同业务任务的多维视图。 |
大量外汇数据通常以TB、PB为单位存储 | 由于历史数据被归档,数据的大小相对较小。例如,MB、GB |
由于涉及的数据量较大,因此相对较慢。查询可能需要几个小时。 | 非常快,因为查询对 5% 的数据进行操作。 |
与 OLTP 相比,它只需要不时备份。 | 备份和恢复过程是虔诚地维护的 |
这些数据通常由 CEO、MD、GM 管理。 | 这些数据由文员、经理管理。 |
只有读操作,很少写操作。 | 读取和写入操作。 |
26. 解释数据挖掘中的关联算法?
关联分析是发现关联规则显示在给定数据集中经常一起出现的属性值条件。关联分析广泛用于市场篮子或交易数据分析。关联规则挖掘是数据挖掘研究中一个重要且异常活跃的领域。一种基于关联的分类方法称为关联分类,由两个步骤组成。在主要步骤中,使用称为 Apriori 的标准关联规则挖掘算法的修改版本生成关联指令。第二步根据发现的关联规则构造一个分类器。
27. 解释如何使用包含在 SQL Server 数据挖掘中的数据挖掘算法?
SQL Server 数据挖掘为 Office 2007 提供数据挖掘加载项,允许查找信息的模式和关系。这有助于改进分析。称为 Excel 数据挖掘客户端的加载项用于初始准备信息、创建模型、管理、分析和结果。
28.解释过拟合?
过拟合的概念在数据挖掘中非常重要。它是指归纳算法生成的分类器与训练数据完美匹配,但失去了对训练期间未呈现的实例的泛化能力的情况。换句话说,分类器只是记住训练实例而不是学习。在决策树中,当树的节点相对于可用的训练数据量过多时,通常会发生过度拟合。通过增加节点数量,训练误差通常会减少,而在某些时候泛化误差会变得更糟。当训练数据中存在噪声或训练数据集的数量较多时,完全构建的树的误差为零时,过拟合会导致困难,而真实误差可能更大。
过拟合的决策树有很多缺点:
- 过度拟合的模型是不正确的。
- 过拟合的决策树需要更多的空间和更多的计算资源。
- 他们需要收集不必要的功能。
29. 定义树修剪?
在构建决策树时,由于噪声或异常值,许多分支会反映训练数据中的异常。树修剪方法解决了数据过度拟合的问题。所以树修剪是一种消除过拟合问题的技术。此类方法通常使用统计测量来移除最不可靠的分支,通常会导致更快的分类并提高树正确分类独立测试数据的能力。修剪阶段消除了一些较低的分支和节点以提高其性能。处理修剪后的树以提高可理解性。
30. 什么是刺?
统计信息网格称为 STING;它是一种基于网格的多分辨率聚类策略。在 STING 策略中,每一项都包含在矩形单元中,这些单元保持不同程度的分辨率,这些级别以层次结构组织。
31 . 定义变色龙方法?
Chameleon 是另一种利用动态建模的层次聚类技术。Chameleon 熟悉恢复 CURE 聚类技术的缺点。在该技术中,如果两个集群之间的互连性大于集群/组内对象之间的互连性,则组合两个组。
32. 解释有关分类和预测的问题?
准备用于分类和预测的数据:
- 数据清洗
- 相关性分析
- 数据转换
- 比较分类方法
- 预测准确性
- 速度
- 稳健性
- 可扩展性
- 可解释性
33.解释数据挖掘查询的使用或为什么数据挖掘查询更有帮助?
数据挖掘查询主要应用于新数据的模型,以产生单个或多个不同的结果。它还允许我们提供输入值。如果正确定义了特定模式,则查询可以有效地检索信息。它获取训练数据统计内存,并获取解决模型中某个模式的常见案例的具体设计和规则。它有助于提取回归公式和其他计算。它还恢复了有关模型中使用的个别案例的见解。它合并了分析中未使用的信息,它在添加新数据的帮助下保持模型并执行任务和交叉验证。
34. 什么是基于机器学习的数据挖掘方法?
这个问题是面试中提出的高级数据挖掘面试问题。机器学习主要用于数据挖掘,因为它涵盖了自动编程处理系统,并且它依赖于逻辑或二进制任务。. 机器学习在很大程度上遵循的规则允许我们管理更一般的信息类型,合并案例,在这些类型中,属性的数量可能会有所不同。机器学习是用于数据挖掘和人工智能的著名程序之一。
35.什么是K-means算法?
K-means 聚类算法——它是解决聚类问题的最简单的无监督学习算法。K-means 算法将 n 个观测值划分为 k 个簇,其中每个观测值都属于该簇,以最近的均值作为簇的原型。
图:K-Means Clustering 属性划分
36. 常见的数据挖掘面试题和答案有哪些?什么是准确率和召回率?[IMP]
精度是 n 分类机制中最常用的错误度量。它的范围是从 0 到 1,其中 1 代表 100%。
召回可以定义为我们模型中实际阳性的数量,其类别标签为阳性(真阳性)”。召回率和真阳性率完全相同。这是它的公式:
召回率=(真阳性)/(真阳性 + 假阴性)
37. 可以使用 t-test 或 z-test 的理想情况是什么?
标准做法是,当样本大小低于 30 个属性时使用 t 检验,z 检验被视为样本大小超过 30 时。
38. 标准化系数和非标准化系数之间的简单区别是什么?
在归一化系数的情况下,它们的解释取决于它们的标准偏差值。而非标准化系数是根据数据集中存在的实际值估计的。
39.数据挖掘面试题合集:如何检测异常值?
许多方法可用于区分异常值异常,但最常用的两种技术如下:
- 标准差策略:这里,如果该值低于或高于平均值的三个标准差,则该值被视为异常值。
- 箱线图技术:此处,如果某个值小于或大于四分位距 (IQR) 的 1.5 倍,则该值被视为异常值
40. 为什么在确定数据中的缺失数字时首选 KNN?
K-最近邻 (KNN) 在这里是首选,因为 KNN 可以很容易地根据最接近它的值来估计要确定的值。
k-最近邻 (K-NN) 分类器被视为基于示例的分类器,这意味着训练文档用于比较,而不是像其他分类器使用的类配置文件那样精确的类说明。因此,没有真正的培训部分。一旦必须对新文档进行分类,就会找到 k 个最相似的文档(邻居),如果它们中有足够大的比例被分配到一个精确的类,则新文档也被指定到当前类,否则不会。此外,使用传统分类策略可以加快寻找最近邻的速度。
41. 数据挖掘常见问题合集?解释分类中的 Prepruning 和 Post pruning 方法?
预剪枝:在预剪枝方法中,一棵树通过提前停止构建来“剪枝”(例如,通过决定不在给定节点进一步拆分或分割训练样本的子集)。停止后,节点变为叶子。叶子可能包含子集样本中最频繁的类别,或者这些样本的概率分布。在构建树时,可以使用统计显着性、信息增益等度量来评估拆分的优劣。如果在节点对样本进行分区将导致低于预先指定阈值的分裂,则停止对给定子集的进一步分区。然而,在选择合适的阈值方面存在问题。高阈值可能导致过于简化的树,而低阈值可能导致非常小的简化。
后修剪:后修剪方法从“完全成长”的树中移除分支。通过删除其分支来修剪树节点。成本复杂度剪枝算法是后剪枝方法的一个例子。修剪后的节点变成叶子,并由其前分支中最频繁的类标记。对于树中的每个非叶节点,该算法计算如果该节点处的子树被剪枝会发生的预期错误率。接下来,使用每个分支的错误率计算如果节点未被修剪时发生的可预测错误率,通过根据每个分支的观察比例加权来汇总。如果修剪节点导致更大的可能错误率,则保留子树。否则,它被修剪。在生成一组逐步修剪的树后,一个独立的测试集用于估计每棵树的准确性。首选最小化预期错误率的决策树。
42. 如何在执行 分析时处理数据集中可疑或丢失的数据?
如果数据集中存在任何不一致或不确定性,用户可以继续使用任何随附的技术: 创建验证报告,其中包含有关对话中数据的见解 升级与经验丰富的数据分析师非常相似的内容以查看它并接受呼叫用比较大量和最新的数据信息替换无效信息使用多种方法一起发现缺失值并在必要时使用近似估计。
43.主成分分析(PCA)和因子分析(FA)的简单区别是什么?
数据挖掘面试问题和答案合集:在众多差异中,PCA 和 FA 的显着差异在于,因子分析是用来确定和处理变量之间的方差,而 PCA 的重点是解释当前段或变量之间的协方差。
44 . 数据挖掘和数据分析有什么区别?
数据挖掘 | 数据分析 |
---|---|
用于感知存储数据中的设计。 | 用于以重要的方式排列和组合原始信息。 |
采矿是在干净且有据可查的情况下进行的。 | 信息分析包括数据清理。因此,信息无法以记录良好的格式提供。 |
从数据挖掘中提取的结果难以解释。 | 从信息分析中提取的结果不难解释。 |
45. 数据挖掘和数据剖析有什么区别?
- 数据挖掘:数据挖掘是指对有关发现以前未发现的关系的信息进行分析。主要侧重于对奇怪记录、条件的识别和聚类检查。
- 数据分析:数据分析可以描述为分析数据的单个属性的过程。它主要侧重于提供有关信息属性的重要数据,例如信息类型、重复性等。
46. 数据验证过程中的重要步骤是什么?
顾名思义,数据验证是批准信息的过程。这种进展主要有两种与之相关的方法。这些是数据筛选和数据验证。
- 数据筛选:在此进程中使用不同类型的计算来筛选整个信息以发现任何不准确的质量。
- 数据验证:每个假定值都在不同的用例上进行评估,然后就是否必须为信息记住该值得出最终结论。
47.什么是一元,二元之间的差异,以及多变量分析?
单变量、双变量和多变量调查之间的主要区别如下:
- 单变量:一种统计程序,可以根据给定时间实例所需的因素检查进行分离。
- 双变量:这种分析被用来在一个时间去发现两个变量之间的区别。
- 多元:对多个变量的分析称为多元。该分析用于了解因素对响应的影响。
48. 方差和协方差有什么区别?
方差和协方差是统计领域中经常出现的两个数学术语。方差从根本上处理根据平均值分离数字的方式。协方差是指两个随机/不规则因素将如何一起变化。这主要用于计算变量之间的相关性。
49. 假设检验有哪些不同类型?
各种假设检验如下:
- T 检验:当标准偏差未知且样本量几乎很小时,使用 T 检验。
- 独立性的卡方检验:这些检验用于发现总体样本中所有分类变量之间关联的显着性。
- 方差分析 (ANOVA):这种类型的假设检验用于检查不同集群中方法之间的对比。该测试与 T 测试相比使用,但用于多个组。
Welch 的 T 检验:此检验用于发现两个测试样本检验之间均值相等的检验。
50. 为什么要使用数据仓库,如何提取数据进行分析?
数据仓库是建立商业智能的关键技术。数据仓库是从企业的运营或交易系统中提取的数据集合,经过转换以清除标识编码和定义中的任何不一致,然后进行安排以支持快速报告和分析。
以下是数据仓库的一些好处:
- 它独立于操作数据库。
- 集成来自异构系统的数据。
- 存储海量数据,比当前数据更具历史意义。
- 不需要数据高度准确。
奖金面试问题和答案
1. 什么是可视化?
可视化用于描述数据并获得对所观察数据的直觉。它帮助分析人员选择显示格式、查看者视角和数据表示模式。
2. 提供一些数据挖掘工具?
- 数据库矿工
- 地质矿工
- 多媒体矿工
- 博客矿工
3. 数据挖掘最显着的优势是什么?
数据挖掘有很多优点。其中一些如下所列:
- 数据挖掘用于润色原始数据,使我们能够探索、识别和理解隐藏在数据中的模式。
- 它可以在大型数据库中自动查找预测信息,从而帮助及时识别以前隐藏的模式。
- 它有助于更快更好地做出决策,进而帮助企业采取必要的行动来增加收入和降低运营成本。
- 它还用于帮助数据筛选和验证以了解数据的来源。
- 使用数据挖掘技术,专家可以管理各个领域的应用程序,如市场分析、生产控制、体育、欺诈检测、占星术等。
- 购物网站使用数据挖掘来定义购物模式并设计或选择产品以获得更好的收入。
- 数据挖掘还有助于数据优化。
- 数据挖掘也可用于确定隐藏的盈利能力。
4. 什么是“训练集”和“测试集”?
在机器学习等信息科学的各个领域,一组数据用于发现潜在的预测关系,称为“训练集”。训练集是给学习器的一个例子,而测试集是用来测试学习器产生的假设的准确性,它是学习器阻止的例子集。训练集不同于测试集。
5.解释“无监督学习”的功能是什么?
- 查找数据簇
- 查找数据的低维表示
- 在数据中寻找有趣的方向
- 有趣的坐标和相关性
- 寻找新的观察/数据库清理
6. 模式识别用于哪些领域?
模式识别可用于
- 计算机视觉
- 语音识别
- 数据挖掘
- 统计数据
- 非正式检索
- 生物信息学
7. 什么是集成学习?
为了解决特定的计算程序,策略性地生成并组合多个模型(例如分类器或专家)以解决特定的计算程序 Multiple。这个过程被称为集成学习。当我们构建更准确且彼此独立的组件分类器时,使用集成学习。这种学习用于改进分类、数据预测和函数逼近。
8. 集成方法的一般原理是什么,集成方法中的bagging和boosting是什么?
集成方法的一般原理是结合使用给定学习算法构建的多个模型的预测,以提高单个模型的鲁棒性。Bagging 是集成中用于改进不稳定估计或分类方案的一种方法。同时使用boosting方法来减少组合模型的偏差。Boosting 和 Bagging 都可以通过减少方差项来减少错误。
9. 关系评估技术的组成部分是什么?
关系评估技术的重要组成部分是
- 数据采集
- 地面实况采集
- 交叉验证技术
- 查询类型
- 评分指标
- 显着性检验
10. 顺序监督学习有哪些不同的方法?
解决顺序监督学习问题的不同方法是
- 滑动窗口方法
- 循环滑动窗口
- 隐马尔科夫模型
- 最大熵 Markow 模型
- 条件随机场
- 图转换器网络
11. 什么是随机森林?
随机森林是一种机器学习方法,可帮助你执行所有类型的回归和分类任务。它还用于处理缺失值和异常值。
12.什么是强化学习?
数据挖掘面试题合集:强化学习是一种关于如何将情况映射到动作的学习机制。最终结果应该可以帮助你增加二元奖励信号。在这种方法中,学习者不会被告知要采取哪个动作,而是必须发现哪个动作提供了最大的奖励。该方法基于奖励/惩罚机制。
13. 数据挖掘常见问题合集?是否可以捕获连续变量和分类变量之间的相关性?
是的,我们可以使用协方差技术的分析来捕捉连续变量和分类变量之间的关联。
14. 什么是可视化?
可视化用于描述信息并获取有关正在观察的信息的知识。它帮助专家选择格式设计、查看者视角和信息表示模式。
15. 列举一些可用于数据分析的最佳工具。
常见的数据挖掘面试题和答案有哪些?最常用的数据分析工具有:
- Google Search Operators
- KNIME
- Tableau
- Solver
- RapidMiner
- Io
- NodeXL
16. 描述人工神经网络的结构?
数据挖掘面试问题和答案合集:人工神经网络 (ANN) 也简称为“神经网络”(NN),可以是生物神经网络支持的过程模型。它的结构由相互连接的人工神经元集合组成。人工神经网络是一个形容词系统,它在学习部分改变流经人工网络的结构支持信息。人工神经网络依赖于通过实例学习的原则。然而,有两种经典类型的神经网络,感知器和多层感知器。在这里,我们将针对感知器算法规则。
17. 你认为 50 个小的决策树比一个大的更好吗?为什么?
是的,50 棵小决策树比大决策树好,因为 50 棵树使模型更稳健(不易过度拟合)并且更易于解释。