机器学习:Python实践
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

6.2 数据的维度

在机器学习中要注意数据的行和列,必须对所拥有的数据非常了解,要知道有多少行和多少列,这是因为:

太多的行会导致花费大量时间来训练算法得到模型;太少的数据会导致对算法的训练不充分,得不到合适的模型。

如果数据具有太多的特征,会引起某些算法性能低下的问题。

通过DataFrame的shape属性,可以很方便地查看数据集中有多少行和多少列。代码如下:

    from pandas import read_csv
    # 显示数据的行和列数据
    filename='pima_data.csv'
    names=['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age',
    'class']
    data=read_csv(filename, names=names)
    print(data.shape)

执行结果如下:

   (768, 9)