处理导入的CSV文件:如何使用Pandas计算统计数据?

2021年9月19日13:17:05 发表评论 1,448 次浏览

Pandas 是一个强大的 Python 包,可用于执行统计分析。如何使用Pandas计算CSV统计数据?在本指南中,你将看到如何使用 Pandas 从导入的 CSV 文件中计算统计数据。

Pandas CSV计算统计数据:这个例子

如何使用Pandas计算统计数据?为了演示如何从导入的 CSV 文件计算统计数据,让我们查看一个包含以下数据集的简单示例:

名称工资国家
Dan40000USA
Elizabeth32000Brazil
Jon45000Italy
Maria54000USA
Mark72000USA
Bill62000Brazil
Jess92000Italy
Julia55000USA
Jeff35000Italy
Ben48000Brazil

从导入的 CSV 文件计算统计数据的步骤

步骤 1:将数据集复制到 CSV 文件中

如何使用Pandas计算CSV统计数据?首先,你需要将上述数据集复制到 CSV 文件中。然后将 CSV 文件重命名为stats

第 2 步:将 CSV 文件导入 Python

接下来,你需要使用此模板将 CSV 文件导入 Python:

import pandas as pd
df = pd.read_csv (r'Path where the CSV file is stored\File name.csv')
print (df)

以下是存储 CSV 文件的路径示例:

 C:\Users\Ron\Desktop\stats.csv

因此,导入stats CSV 文件的完整代码如下(请注意,你需要修改路径以反映 CSV 文件在你的计算机上存储位置):

import pandas as pd
df = pd.read_csv (r'C:\Users\Ron\Desktop\stats.csv')
print (df)

Pandas统计CSV数据 - 在Python 中运行代码(根据你的路径进行调整)后,你将获得以下DataFrame:

        Name  Salary Country
0        Dan   40000     USA
1  Elizabeth   32000  Brazil
2        Jon   45000   Italy
3      Maria   54000     USA
4       Mark   72000     USA
5       Bill   62000  Brazil
6       Jess   92000   Italy
7      Julia   55000     USA
8       Jeff   35000   Italy
9        Ben   48000  Brazil

第 3 步:使用 Pandas 从导入的 CSV 文件中计算统计数据

最后一步的目标是使用 Pandas 包计算以下统计数据:

  • 平均工资
  • 工资总额
  • 最高工资
  • 最低薪资
  • 工资数
  • 工资中位数
  • 工资标准差
  • 工资差异

此外,我们还会做一些分组计算:

  • 工资总额,按国家/地区列分组
  • 按国家/地区列分组的工资计数

如何使用Pandas计算CSV统计数据?准备好后,运行下面的代码,以便使用Pandas从导入的 CSV 文件中计算统计数据如前所述,你需要更改路径名(代码中的第 2 行)以反映 CSV 文件在你的计算机上存储位置,如下Pandas CSV计算统计数据实例:

import pandas as pd
df = pd.read_csv (r'C:\Users\Ron\Desktop\stats.csv') 

# block 1 - simple stats
mean1 = df['Salary'].mean()
sum1 = df['Salary'].sum()
max1 = df['Salary'].max()
min1 = df['Salary'].min()
count1 = df['Salary'].count()
median1 = df['Salary'].median() 
std1 = df['Salary'].std() 
var1 = df['Salary'].var()  

# block 2 - group by
groupby_sum1 = df.groupby(['Country']).sum() 
groupby_count1 = df.groupby(['Country']).count()

# print block 1
print ('Mean salary: ' + str(mean1))
print ('Sum of salaries: ' + str(sum1))
print ('Max salary: ' + str(max1))
print ('Min salary: ' + str(min1))
print ('Count of salaries: ' + str(count1))
print ('Median salary: ' + str(median1))
print ('Std of salaries: ' + str(std1))
print ('Var of salaries: ' + str(var1))

# print block 2
print ('Sum of values, grouped by the Country: ' + str(groupby_sum1))
print ('Count of values, grouped by the Country: ' + str(groupby_count1))

Pandas统计CSV数据 - 在 Python 中运行代码后,你将获得以下结果:

Mean salary: 53500.0
Sum of salaries: 535000
Max salary: 92000
Min salary: 32000
Count of salaries: 10
Median salary: 51000.0
Std of salaries: 18222.391598128816
Var of salaries: 332055555.5555556
Sum of values, grouped by the Country:
Country        
Brazil   142000
Italy    172000
USA      221000
Count of values, grouped by the Country:
Country              
Brazil      3       3
Italy       3       3
USA         4       4

如何使用Pandas计算统计数据?你刚刚看到了如何使用Pandas计算简单的统计数据你可能还想查看 Pandas文档以了解更多关于这个强大库的力量!

木子山

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: