ML：机器学习中的数据简介

2021年5月6日16:57:17 发表评论 1,765 次浏览

数据：

可以是任何未经解释和分析的未经处理的事实, 值, 文本, 声音或图片。数据是所有数据分析, 机器学习和人工智能中最重要的部分。没有数据, 我们就无法训练任何模型, 所有现代研究和自动化都将徒劳无功。大企业正在花费大量金钱只是为了收集尽可能多的某些数据。

例子：

为什么Facebook要以190亿美元的巨额价格收购WhatsApp？

答案非常简单且合乎逻辑-可以访问Facebook可能没有但WhatsApp将拥有的用户信息。用户的信息对于Facebook至关重要, 因为这将有助于改善他们的服务。

信息：

已经被解释和操纵的数据, 现在对用户具有一些有意义的推断。

知识：

推断信息, 经验, 学习和见识的结合。导致个人或组织的意识或概念建立。

我们如何在机器学习中拆分数据？

训练数据：我们用来训练模型的数据部分。这是模型实际看到的数据(输入和输出)并从中学习。
验证数据：用来对模型进行频繁评估的那部分数据适合于训练数据集, 同时改善了所涉及的超参数(在模型开始学习之前初始设置参数)。在实际训练模型时, 这些数据将发挥重要作用。
测试数据：一旦我们的模型经过全面训练, 测试数据即可提供公正的评估。当我们输入测试数据的输入时, 我们的模型将预测一些值(看不到实际输出)。经过预测, 我们通过将模型与测试数据中存在的实际输出进行比较来评估模型。这是我们进行评估的方式, 并了解我们的模型从作为培训数据设置的培训数据中获得的经验教训。