机器学习:Python实践
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

5.2 Pima Indians数据集

首先介绍一下在本章和后续章节中要使用的测试数据。目前在UCI机器学习仓库(http://archive.ics.uci.edu/ml/datasets.html)中有大量的免费数据,可以利用这些数据来学习机器学习,并训练算法模型。本章选择的Pima Indians数据集就是从UCI中获取的。这是一个分类问题的数据集,主要记录了印第安人最近五年内是否患糖尿病的医疗数据。这些数据都是以数字的方式记录的,并且输出结果是0或1,使我们在机器学习的算法中建立模型变得非常方便。