投票分类器是一种机器学习模型, 它在众多模型的整体上进行训练, 并根据其将选定类别作为输出的最高概率来预测输出(类别)。 它只是汇总传递给"投票分类器"的每个分类器的结果, 并根据最高的投票预测输出类...
ML为什么要在分类中进行逻辑回归?
使用线性回归, 所有> = 0.5的预测都可以被视为1, 而其余所有<0.5的预测都可以被视为0。但是随后出现了一个问题, 为什么不能使用它进行分类? 问题– 假设我们将邮件分类为垃圾邮件...
ML层次聚类(聚集和分裂聚类)
在数据挖掘和统计中, 层次聚类分析是一种聚类分析的方法, 其试图建立聚类的层次, 即基于层次的树型结构。 基本上, 有两种类型的层次聚类分析策略– 聚集聚类: 也称为自下而上的方法或分层的聚集聚类(H...
ML:在Python中使用SMOTE和Near Miss算法处理不平衡数据
本文概述 SMOTE(少数民族综合采样技术)–过度采样 NearMiss算法–欠采样 在机器学习和数据科学中, 我们经常遇到一个叫做数据分配不平衡, 通常发生在其中一类的观测值比其他类高或低得多的情况...
ML模糊聚类详细介绍和指南
先决条件: 机器学习中的聚类 什么是聚类? 聚类是一种无监督的机器学习技术, 可根据给定数据彼此之间的距离(相似性)将其分为不同的簇。 无监督k均值聚类算法将位于某个特定聚类中的任何点的值设置为0或1...
ML特征缩放指南–第2部分
特征缩放是一种在固定范围内标准化数据中存在的独立特征的技术。它是在数据预处理期间执行的, 以处理高度变化的幅度或值或单位。如果未进行特征缩放, 则机器学习算法将权衡更大的值, 更大的值, 并将较小的值...
ML特征缩放指南–第1部分
特征缩放是一种在固定范围内标准化数据中存在的独立特征的技术。它是在数据预处理期间执行的。 加工: 给定具有以下特征的数据集-年龄, 工资, BHK公寓, 其数据大小为5000人, 每个人具有这些独立的...
ML用于特征选择的额外树分类器
先决条件: 决策树分类器 极随机树分类器(额外树分类器)是一种整体学习技术, 可将在"森林"中收集的多个不相关的决策树的结果进行汇总, 以输出其分类结果。从概念上讲, 它与随机森林分类器非常相似, 唯...
ML信用卡欺诈检测详细示例
面临的挑战是识别欺诈性的信用卡交易, 以便不向信用卡公司的客户收取未购买商品的费用。 信用卡欺诈检测所涉及的主要挑战是: 每天都会处理大量数据, 并且模型构建必须足够快才能及时响应骗局。 数据不平衡,...
ML Logistic回归中的成本函数
对于线性回归, 成本函数为– 但是对于Logistic回归, 这将导致非凸成本函数。但这会导致成本函数具有局部最优值, 这对于梯度下降计算全局最优值来说是一个很大的问题。 因此, 对于Logistic...