![数据科学与机器学习:数学与统计方法](https://wfqqreader-1252317822.image.myqcloud.com/cover/83/47684083/b_47684083.jpg)
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
1.5.3 双变量的数据可视化
本节将介绍一些有用的视觉辅助工具,以探索两个特征之间的关系。图形表示方式将取决于这两个特征的类型。
1.两个类别变量的图
两个类别变量的对比条形图需要在图中引入子图。图1.5是1.3节中列联表的可视化图形,此图交叉显示老年人家庭状况与性别。这里只是在同一个图形中显示两个相邻的条形图。
![](https://epubservercos.yuewen.com/C30954/27086998107751806/epubprivate/OEBPS/Images/23_04.jpg?sign=1739506241-MaxfBRBRhmWMlPPFTHBXoWIKCSUTkuNZ-0-d4042569a6ebc21dd6c7dee116a92ce9)
图1.5 两个类别变量的条形图
该图是使用seaborn软件包制作的,seaborn是专为简化统计可视化任务设计的。
![](https://epubservercos.yuewen.com/C30954/27086998107751806/epubprivate/OEBPS/Images/24_01.jpg?sign=1739506241-Ljoj5umKxQTK0SK4W7Tbc8nedWT7HXIu-0-fe4cb522b0650734074cbdba1f1caee6)
2.两个定量变量的图
我们可以使用散点图将两个定量特征之间的模式可视化。这可以用plt.scatter命令实现。下面的代码可生成nutri数据中weight相对height的散点图,如图1.6所示。
![](https://epubservercos.yuewen.com/C30954/27086998107751806/epubprivate/OEBPS/Images/24_02.jpg?sign=1739506241-i4QMDDnxiy8ro06i4Fib64ulWSXDL3dR-0-8b8636f13563611e99059d242b699728)
![](https://epubservercos.yuewen.com/C30954/27086998107751806/epubprivate/OEBPS/Images/24_03.jpg?sign=1739506241-Tnd8IAGY4efSnfFMFEIr6W7vtfdVnIkB-0-4531de981350f78f417159e1a2b0621b)
图1.6 weight(体重)相对height(身高)的散点图
下面的Python代码演示了怎样绘制高度复杂的散点图,如图1.7所示。图中显示了婴儿出生体重与母亲抽烟(三角形)或母亲不抽烟(圆圈)的关系。另外,对两组数据进行直线拟合,结果表明:母亲抽烟时,婴儿出生体重随母亲年龄的增加而下降;母亲不抽烟时,婴儿出生体重随母亲年龄的增加而增加!问题是这些趋势是有统计学意义,还是纯属偶然。我们将在本书后面重新讨论这个数据集。
![](https://epubservercos.yuewen.com/C30954/27086998107751806/epubprivate/OEBPS/Images/24_04.jpg?sign=1739506241-D0rJIyTxAZ6qevA5kcAqJupVo4PilW6k-0-f302a2c4e0983baa1d59d9d49c600368)
![](https://epubservercos.yuewen.com/C30954/27086998107751806/epubprivate/OEBPS/Images/25_01.jpg?sign=1739506241-Rw3QtT1fSWCaUKnz14WzVPycGHGBxukK-0-e4d7097ae4b088f1a5429648aa4339a2)
![](https://epubservercos.yuewen.com/C30954/27086998107751806/epubprivate/OEBPS/Images/25_02.jpg?sign=1739506241-hU64mGmEi5KB8f1Dh63de0jlQ6wIRpU2-0-b450c7d0cd5369ee5bdf7721dbdf15b9)
图1.7 婴儿出生体重与抽烟或不抽烟母亲的年龄关系
3.定性变量和定量变量的图
在这种情况下,针对每个分类特征绘制定量特征的箱形图很有意思。假设变量结构正确,使用以下代码中的plt.boxplot函数可以生成图1.8:
![](https://epubservercos.yuewen.com/C30954/27086998107751806/epubprivate/OEBPS/Images/25_03.jpg?sign=1739506241-zqpiBmPjNCR5MTExIGoZPVQtpOqgwgWX-0-c614cf4a78962f91b971cd7a57d52049)
![](https://epubservercos.yuewen.com/C30954/27086998107751806/epubprivate/OEBPS/Images/25_04.jpg?sign=1739506241-B3SdiCpxZYnx2dsLTBrcq76dZT7t0mkN-0-fe96e6539cf371534c4fc36ffad4fb8f)
图1.8 将定量特征coffee(每天咖啡消耗量)看作分类特征gender(性别)的函数,绘制箱形图。注意,我们这次使用了“缺口”样式的箱形图