机器学习:Python实践
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

3.4 数据可视化

通过对数据集的审查,对数据有了一个基本的了解,接下来将通过图表来进一步查看数据特征的分布情况和数据不同特征之间的相互关系。

使用单变量图表可以更好地理解每一个特征属性。

多变量图表用于理解不同特征属性之间的关系。

3.4.1 单变量图表

单变量图表可以显示每一个单独的特征属性,因为每个特征属性都是数字,因此我们可以通过箱线图来展示属性与中位值的离散速度。代码如下:

    # 箱线图
   dataset.plot(kind='box',    subplots=True,    layout=(2,2),    sharex=False,
   sharey=False)
   pyplot.show()

执行结果如图3-1所示。

图3-1

还可以通过直方图来显示每个特征属性的分布状况。代码如下:

    # 直方图
   dataset.hist()
   pyplot.show()

在输出的图表中,我们看到separ-length和separ-width符合高斯分布。执行结果如图3-2所示。

图3-2

3.4.2 多变量图表

通过多变量图表可以查看不同特征属性之间的关系。我们通过散点矩阵图来查看每个属性之间的影响关系。

    # 散点矩阵图
   scatter_matrix(dataset)
   pyplot.show()

执行结果如图3-3所示。

图3-3