机器学习:Python实践
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

6.5 数据分组分布(适用于分类算法)

在分类算法中,需要知道每个分类的数据大概有多少条记录,以及数据分布是否平衡。如果数据分布的平衡性很差,需要在数据加工阶段进行数据处理,来提高数据分布的平衡性。利用Pandas的属性和方法,可以很方便地查看数据的分布情况。代码如下:

    from pandas import read_csv
    # 数据分类分布统计
    filename='pima_data.csv'
    names=['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age',
    'class']
    data=read_csv(filename, names=names)
    print(data.groupby('class').size())

执行结果如下:

    class
    0    500
    1    268
    dtype: int64