上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
6.2 数据的维度
在机器学习中要注意数据的行和列,必须对所拥有的数据非常了解,要知道有多少行和多少列,这是因为:
太多的行会导致花费大量时间来训练算法得到模型;太少的数据会导致对算法的训练不充分,得不到合适的模型。
如果数据具有太多的特征,会引起某些算法性能低下的问题。
通过DataFrame的shape属性,可以很方便地查看数据集中有多少行和多少列。代码如下:
from pandas import read_csv # 显示数据的行和列数据 filename='pima_data.csv' names=['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class'] data=read_csv(filename, names=names) print(data.shape)
执行结果如下:
(768, 9)