要想在数据科学领域脱颖而出,你需要了解的八个统计学主题的Python 统计数据科学资源列表
数据科学与统计学
统计数据科学有哪些资源?根据我们的“通过 8 个(简单)步骤学习数据科学”信息图,学习数据科学的第一步是深入了解统计学、数学和机器学习。
如果你没记错,下一步就是学习如何编码。
但是,一旦你了解了开展数据科学所需的所有 Python 知识,就该巩固你所获得的知识了。
Python统计学资源包括什么?本博客引用的数据科学统计主题并包括以下资源:
- 统计学和概率论
- 概率分布
- 假设检验
- 统计建模和拟合
- 机器学习
- 回归分析
- 贝叶斯思维和建模
- 马尔可夫链
此列表并未详尽列出数据科学中使用的统计数据,但旨在帮助你入门。:)
顺便说一句,如果你仍然希望开始学习 Python 数据科学,你应该考虑参加我们的数据科学 Python 入门课程。它将帮助你使用 Python 应用统计数据。
Python数据统计的方法有哪些?学习数据科学的统计学非常实用,这就是为什么你不应该忘记(继续)专注于实践你在数据科学之旅开始时可能已经学到的理论概念。
但是统计学和数据科学之间究竟有什么区别?
他们经常感到困惑,有人说没有区别,数据科学家实际上是统计学家。
但最后,如果你暂时搁置这些意见,大多数人都会同意这样一个事实,即统计是数据科学中使用的核心组件之一,也是核心组件之一。
使用 Python 进行统计
今天的帖子将重点介绍如何使用 Python 学习统计。包括你需要在使用 Python 的数据科学之旅中探索的统计分析主题。
为什么是 Python?
R 是开始统计的好地方。它是为统计计算和图形而开发的,因此它为用户提供了大量的统计包。另一方面,Python 是一种具有许多应用程序的通用语言。
但是,你也可以使用 Python 进行统计。
有人说他们使用 Python 是因为它的性能或者因为它也可以做很多 R 可以做的事情。
但是,本质上,这种编程语言越来越受欢迎,而且近年来可用于数据科学的包数量肯定有所增加。
简而言之,绝对有理由使用 Python 进行统计分析。
你最终选择的工具将取决于你想要进行的分析类型。
那么,你准备好开始使用 Python 进行统计了吗?
附注。如果你还在寻找学习 R 或 R 统计的资源,请查看DataCamp 的公开课程或R 统计介绍。
Python 统计和概率论
Python 统计数据科学资源:你可能应该解决的第一个主题是统计学和概率论。不仅有相当多的视频和课程可以帮助你,而且还有很多(印刷的)书籍可以帮助你开始使用 Python 进行统计。
Python统计简介
Python统计学资源包括什么?对于统计学的介绍,本教程包含现实生活中的例子是要走的路。本教程的笔记本将向你介绍均值、中位数、标准差等概念,以及假设检验和概率分布等主题的基础知识。
开始学习统计数据的好方法,因为它的灵感来自“Think Bayes”和“Think Stats”这本书,这两本书将在下面返回!
如果你正在寻找书籍,你可以试试这本关于 Python 计算统计的免费书籍,它不仅包含 Python 编程的介绍,还涉及马尔可夫链蒙特卡罗、期望最大化 (EM) 等主题算法、重采样方法等等。
或者,你可以购买 Thomas Haslwanter 的这本书,了解常见统计检验、线性回归分析以及生存分析和贝叶斯统计主题的一般介绍。请注意,本书确实将生命科学和医学科学作为一个应用领域。
如你所见,上述两本书也已经向你介绍了更高级的 Python 统计主题。
如果你是一个视频爱好者,你应该考虑看这件T utorial与SciPy的与克里斯托弗Fonnesbeck,助理教授在生物统计学系,在医学范德比尔特大学医学院的统计数据分析。Gaël Varoquaux还有 这个关于使用 Python 进行推理和探索性统计的视频。最后一个视频使用 Python 包 Pandas 和 StatsModels。
你将看到这些资源是非常通用的资源,可帮助你开始使用 Python 进行统计。
如果你正在寻找能够让你快速掌握统计学基础知识的资源,你应该查看由 Justin Bois 教授的DataCamp 的Python 统计思维课程。你将了解探索性数据分析 (EDA)、方差和协方差、均值和中位数、概率分布等概念。
Python概率论
当你使用 Python 学习统计学时,概率论也是非常有价值的考虑因素。这是对随机现象的分析。这意味着任何随机事件的结果都是不确定的:它可以是几种可能结果中的任何一种,而最终结果是由偶然决定的。
概率论包含统计学的概念起源。
上面提到的资源对统计进行了一般性介绍,在某些情况下,它们还涵盖了概率论(鉴于上述情况,这似乎是合理的),但也有专门针对此主题的资源。
你还可以查看以下资源:
最重要的建议之一是EdX的计算概率和推理课程。这门由麻省理工学院教师教授的实践课程将使你熟悉概率和推理原理。
你还应该阅读这本免费的书,由布赖恩·布莱斯教授编写,这是一本介绍性的统计推理教科书,以概率论为逻辑。
Python 概率分布
要真正使用 Python 学习用于数据科学的统计学,你还应该对何时使用什么分布有很好的直觉。分布是一个列表或函数,它显示数据的所有可能值或区间以及它们出现的频率。
而且,如果你查看 此列表,你会发现有相当多的发行版需要考虑。
Python数据统计的方法有哪些?有关 SciPy 的均匀、正态、二项式和泊松概率分布的介绍,你可以查看此博客文章。
最重要的推荐是“Think Stats: Probability and Statistics for Programmers”一书中的第四章,它将向你介绍连续分布。然而,第五章也会给你一个可靠的概率分布介绍。
要可视化分布,你可以使用直方图等。如果你想快速浏览,可以查看此 IPython 笔记本,它会简要介绍具有平均值、分位数和直方图及其关系的描述性统计。要了解有关如何可视化分布的更多信息,你可以查看此 Seaborn 教程。
请注意,如果你想学习涵盖某些分布(例如二项式和泊松)和分布函数(例如经验累积分布函数)的课程,或者教你如何可视化这些分布的课程,你可以查看DataCamp 的Python 统计思维课程。
Python 假设测试
统计数据科学有哪些资源?假设检验是统计检验,用于确定数据样本中是否有足够的证据来推断特定条件对整个总体而言是真实的。
这些检验的两个核心概念是零假设和备择假设,但 p 值也是假设检验的基础。当你是该领域的新手时,这些事情很难理解,需要付出一些努力来掌握 p 值的 alpha 值或显着性水平,以及拒绝或未能拒绝零假设之间的区别。
你将在 SciPy 库的站点上找到一个教程,该教程简要介绍了 p 值和估计。
这些 SciPy 讲座将向你介绍 t 检验,你可以使用它通过分析两个总体均值来检验你的假设。如果你想探索 t 检验,也可以求助于这篇博文。
如果你想读一本书,最推荐的“Think Stats: Probability and Statistics for Programmers”这本书对于假设检验仍然有效。如果你还没有通过其他章节来了解分布,那么第七章将教你所有关于假设检验的知识。
对于正在寻找课程的人,DataCamp 的Python 统计思维(第 2 部分) 提供了介绍和测试示例,让你获得有关假设检验等的必要知识和实践。
Python中的统计建模和拟合
Python 统计数据科学资源:现在你已经掌握了假设检验和分布的窍门,你可以首先回顾或深入了解如何制作统计模型和拟合数据的分布。
统计模型近似于生成数据的原因,可用于数据分析以汇总数据、预测和模拟。换句话说,它是生成数据的复杂现象的表示,可用于总结、预测或模拟。
但是,这意味着你还需要能够确定你的数据是否适合该模型。
为了提供模型和数据之间的最佳拟合,可以使用估计。估计涉及根据从样本中获得的信息对总体进行推断。除了假设检验,它是一种从样本中了解总体情况的方法。
本教程将向你介绍借助 Python 库 SciPy 进行拟合的主题。
统计数据建模和拟合也是本统计分析教程中的一章,由 Christopher Fonnesbeck 在笔记本中详细阐述。这个名字现在听起来很熟悉!
对于那些更喜欢视频的人,本教程也可在 Youtube 上以四部电影的形式提供,并讨论估计(最大似然和矩法)等主题。
你可以在此处查看本教程的视频。
顺便说一下,如果你想了解更多关于统计模式分类的最大似然估计,不要错过这个 IPython 笔记本 或这个笔记本,它解释了如何计算不同分布的这个估计。这些笔记本是 Sebastian Raschka 创建的模式分类存储库的一部分,他还有另一个存储他的Python 机器学习书籍的存储库。
Python统计学资源包括什么?使用 Python 进行机器学习
对于他对机器学习这本书的最后建议,你可能会想:这篇文章是关于统计的,对吗?
这是正确的。
机器学习和统计学并不是一回事,但它们确实提出了同样的问题:我们如何从数据中学习?
此外,机器学习和统计技术都经常用于模式识别或数据挖掘等领域。
机器学习是数据科学工具箱中非常有用的工具。这是一个相当广泛的话题,你可以花很多时间来弄清楚它的概念和算法。
这就是为什么你现在可以更好地开始!
但是,你需要从哪里开始并不是很简单,因为它非常广泛,并且存在大量资源来精通 Python 中的机器学习。
Andrew Ng 教授的一般机器学习课程非常理论化,但如果你首先想从理论的角度接近主要概念和算法,仍然推荐它。
但是,还有更多实用资源可以帮助你入门。
以下资源只是现有的一些资源:
这篇关于 SciPy 机器学习的温和介绍将帮助你走上正轨。本教程非常适合那些想要更新基本统计知识并希望以此为基础的人。Kyle Kastner 带领你进行参数估计、回归、模型估计和基本分类。
如果你想要一本书来探讨这个话题,你可以查看IPython Interactive Computing and Visualization Cookbook。第八章介绍了基本的机器学习概念,并说明了诸如逻辑回归、朴素贝叶斯、K-最近邻、支持向量机、随机森林等算法。这本食谱使用 Scikit-learn 包作为示例。
如果你想要介绍机器学习 Scikit-learn 的教程,请转到此处。
另外,不要错过 有关朴素贝叶斯分类器的教程。
使用 Python 进行回归分析
当涉及到数据科学的统计时,回归当然是你不能错过的。这是一个估计变量之间关系的统计过程。
要了解如何使用 Python 进行回归,你应该首先阅读一些有关线性回归的材料。
但请先查看 本教程 :它涵盖了使用 Quandl 的 StatsModels 包进行回归分析。它首先解释了现有的不同类型的回归,然后为你提供了一个实际示例。
然后,通过 此线性回归教程 进行更多练习。
Python数据统计的方法有哪些?然后,你可以继续进行非线性回归。有关 Python 中脊和套索回归的教程,你可以查看此 Analytics Vidhya 教程。本文利用 Python 库 NumPy、Pandas、Matplotlib 和 Scikit-learn 向你清楚地解释了如何处理该主题。
还有一个很棒的关于逻辑回归的笔记本教程,你可以在这里找到 。
另外,不要错过这篇关于 Rodeo 逻辑回归的Yhat博客文章。
Python 中的贝叶斯思维和建模
统计数据科学有哪些资源?贝叶斯统计是一种理论,它根据称为贝叶斯概率的置信度来表达关于世界真实状态的证据。有时,你会希望采用贝叶斯方法来解决数据科学问题。
这究竟意味着什么将在这个由五部分组成的精彩系列介绍中变得清晰,它将向你介绍频率论和贝叶斯主义。
但是,如果你更喜欢书本,则可以查看“Think Bayes: Bayesian Statistics in Python”。“黑客的贝叶斯方法” 是介绍贝叶斯推理的另一个重要资源。任何想要开始使用贝叶斯思维和建模的人都必须阅读的两本书!
或者,如果你想在笔记本中进行介绍,可以阅读本教程,该教程向你介绍了贝叶斯定理。
也不要错过 有关 Python 中的贝叶斯统计分析的教程以及随附的 Youtube 视频 ,这些视频将向你介绍贝叶斯统计、马尔可夫链蒙特卡罗、PyMC、分层建模以及模型检查和验证。
有关 Python 中贝叶斯模型拟合的教程,你应该查看这些 IPython Notebooks和随附的 YouTube 视频,这是 Jake VanderPlas 在 ESAC 数据分析和统计研讨会 2014 上的讲座。
如果你想重用资源,你可以查看IPython 交互式计算和可视化手册,你可能已经用来查看机器学习。本书的第七章是关于统计数据分析,但侧重于假设检验、参数和非参数估计以及模型推理的频率论和贝叶斯方法。
这是一个关于 PyMC 的教程,这是一个实现贝叶斯统计模型和拟合算法的 Python 模块,包括马尔可夫链蒙特卡罗 (MCMC)。此外,本教程,你将在其中学习如何使用 PyMC3 实现贝叶斯线性回归模型,值得一看。
马尔可夫链
Python 统计数据科学资源:简单地说,马尔可夫链是从一个“状态”跳到另一个“状态”的数学系统。这些状态可以是一种情况或一组值。这意味着你有一个可用状态列表,除此之外,马尔可夫链会告诉你从一个状态到任何其他状态的跳跃或“转换”概率。
上面提到的一些资源已经向你介绍了这个主题。
除了这些资源之外,你可能还想观看此视频:这是一个使用蒙特卡罗模拟和重采样等方法来探索假设检验和统计建模的教程。在进入马尔可夫链之前,这可能是巩固知识的好方法。
此外,Python 中的计算统计这本书 将为你提供对马尔可夫链的一些见解。这是对马尔可夫链蒙特卡罗的精彩介绍。
Python 统计入门
Python统计学资源包括什么?这个列表只是让你开始。你会看到许多资源重叠,或者你可能会发现其他资源。请务必在Twitter 上告诉我们!
无论如何,没有理由再等待开始使用 Python 学习统计。