Pandas 是一个强大的 Python 包,可用于执行统计分析。如何使用Pandas计算CSV统计数据?在本指南中,你将看到如何使用 Pandas 从导入的 CSV 文件中计算统计数据。
Pandas CSV计算统计数据:这个例子
如何使用Pandas计算统计数据?为了演示如何从导入的 CSV 文件计算统计数据,让我们查看一个包含以下数据集的简单示例:
名称 | 工资 | 国家 |
Dan | 40000 | USA |
Elizabeth | 32000 | Brazil |
Jon | 45000 | Italy |
Maria | 54000 | USA |
Mark | 72000 | USA |
Bill | 62000 | Brazil |
Jess | 92000 | Italy |
Julia | 55000 | USA |
Jeff | 35000 | Italy |
Ben | 48000 | Brazil |
从导入的 CSV 文件计算统计数据的步骤
步骤 1:将数据集复制到 CSV 文件中
如何使用Pandas计算CSV统计数据?首先,你需要将上述数据集复制到 CSV 文件中。然后将 CSV 文件重命名为stats。
第 2 步:将 CSV 文件导入 Python
接下来,你需要使用此模板将 CSV 文件导入 Python:
import pandas as pd
df = pd.read_csv (r'Path where the CSV file is stored\File name.csv')
print (df)
以下是存储 CSV 文件的路径示例:
C:\Users\Ron\Desktop\stats.csv
因此,导入stats CSV 文件的完整代码如下(请注意,你需要修改路径以反映 CSV 文件在你的计算机上的存储位置):
import pandas as pd
df = pd.read_csv (r'C:\Users\Ron\Desktop\stats.csv')
print (df)
Pandas统计CSV数据 - 在Python 中运行代码(根据你的路径进行调整)后,你将获得以下DataFrame:
Name Salary Country
0 Dan 40000 USA
1 Elizabeth 32000 Brazil
2 Jon 45000 Italy
3 Maria 54000 USA
4 Mark 72000 USA
5 Bill 62000 Brazil
6 Jess 92000 Italy
7 Julia 55000 USA
8 Jeff 35000 Italy
9 Ben 48000 Brazil
第 3 步:使用 Pandas 从导入的 CSV 文件中计算统计数据
最后一步的目标是使用 Pandas 包计算以下统计数据:
- 平均工资
- 工资总额
- 最高工资
- 最低薪资
- 工资数
- 工资中位数
- 工资标准差
- 工资差异
此外,我们还会做一些分组计算:
- 工资总额,按国家/地区列分组
- 按国家/地区列分组的工资计数
如何使用Pandas计算CSV统计数据?准备好后,运行下面的代码,以便使用Pandas从导入的 CSV 文件中计算统计数据。如前所述,你需要更改路径名(代码中的第 2 行)以反映 CSV 文件在你的计算机上的存储位置,如下Pandas CSV计算统计数据实例:
import pandas as pd
df = pd.read_csv (r'C:\Users\Ron\Desktop\stats.csv')
# block 1 - simple stats
mean1 = df['Salary'].mean()
sum1 = df['Salary'].sum()
max1 = df['Salary'].max()
min1 = df['Salary'].min()
count1 = df['Salary'].count()
median1 = df['Salary'].median()
std1 = df['Salary'].std()
var1 = df['Salary'].var()
# block 2 - group by
groupby_sum1 = df.groupby(['Country']).sum()
groupby_count1 = df.groupby(['Country']).count()
# print block 1
print ('Mean salary: ' + str(mean1))
print ('Sum of salaries: ' + str(sum1))
print ('Max salary: ' + str(max1))
print ('Min salary: ' + str(min1))
print ('Count of salaries: ' + str(count1))
print ('Median salary: ' + str(median1))
print ('Std of salaries: ' + str(std1))
print ('Var of salaries: ' + str(var1))
# print block 2
print ('Sum of values, grouped by the Country: ' + str(groupby_sum1))
print ('Count of values, grouped by the Country: ' + str(groupby_count1))
Pandas统计CSV数据 - 在 Python 中运行代码后,你将获得以下结果:
Mean salary: 53500.0
Sum of salaries: 535000
Max salary: 92000
Min salary: 32000
Count of salaries: 10
Median salary: 51000.0
Std of salaries: 18222.391598128816
Var of salaries: 332055555.5555556
Sum of values, grouped by the Country:
Country
Brazil 142000
Italy 172000
USA 221000
Count of values, grouped by the Country:
Country
Brazil 3 3
Italy 3 3
USA 4 4
如何使用Pandas计算统计数据?你刚刚看到了如何使用Pandas计算简单的统计数据。你可能还想查看 Pandas文档以了解更多关于这个强大库的力量!