上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
6.5 数据分组分布(适用于分类算法)
在分类算法中,需要知道每个分类的数据大概有多少条记录,以及数据分布是否平衡。如果数据分布的平衡性很差,需要在数据加工阶段进行数据处理,来提高数据分布的平衡性。利用Pandas的属性和方法,可以很方便地查看数据的分布情况。代码如下:
from pandas import read_csv # 数据分类分布统计 filename='pima_data.csv' names=['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class'] data=read_csv(filename, names=names) print(data.groupby('class').size())
执行结果如下:
class 0 500 1 268 dtype: int64