先决条件:分类和回归
分类和回归是两个主要的预测问题, 通常会与数据挖掘和机器学习一起处理。
分类是查找或发现模型或函数的过程, 该过程有助于将数据分为多个类别, 即离散值。在分类中, 根据输入中提供的一些参数将数据分类在不同的标签下, 然后为数据预测标签。
可以以" IF-THEN"规则的形式演示导出的映射函数。分类过程处理的问题是, 数据可以分为二进制或多个离散标签。
让我们举一个例子, 假设我们要根据先前记录的一些参数来预测A队赢得比赛的可能性。然后会有两个标签"是"和"否"。
图片:二进制分类和多分类
回归是查找用于将数据区分为连续实数值而不是使用类或离散值的模型或函数的过程。它还可以根据历史数据来识别分布运动。由于回归预测模型可以预测数量, 因此, 必须将模型的技能报告为这些预测中的错误
让我们在回归中也使用类似的示例, 借助先前记录的某些参数, 我们发现某些特定区域可能下雨。然后有可能与降雨有关。
图片:日回归vs降雨量(mm)
比较和回归之间的比较:
参数器 | 分类 | 回归 |
---|---|---|
基本的 | 映射功能用于将值映射到预定义的类。 | 映射功能用于将值映射到连续输出。 |
涉及预测 | 离散值 | 连续值 |
预测数据的性质 | 无序 | 已订购 |
计算方法 | 通过测量精度 | 通过测量均方根误差 |
示例算法 | 决策树, 逻辑回归等 | 回归树(随机森林), 线性回归等。 |