上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
1.3 Python中的机器学习
本书主要关注监督学习中的分类与回归问题处理的预测模型,这是在工业中应用非常广泛的分类,也是scikit-learn擅长的一个领域。与统计学不同,机器学习的预测模型是用来理解数据、解决问题的;聚焦于如何创建一个更加精准的模型,而不是用来解释模型是如何设置的。与大部分机器学习的领域不同的是,预测模型是使用表格格式的数据作为模型的输入的,因此数据的采集和整理是很重要的工作。
本书会围绕以下三部分来引导大家学习机器学习。
课程:学习在项目中如何将机器学习的任务和Python有机地结合在一起,以便实现每一个机器学习问题的最佳实践。
项目:通过实例来理解学到的预测模型的知识。
方法:学到一系列方法,只是进行简单的复制粘贴操作就可以启动一个新的机器学习项目。
我们将通过项目来介绍基于Python的生态环境如何完成机器学习的相关工作。一旦明白了如何使用Python平台来完成机器学习的任务,就可以在不同的项目中重复使用这种方法解决问题。利用机器学习的预测模型来解决问题共有六个基本步骤,如图1-1所示。
图1-1
定义问题:研究和提炼问题的特征,以帮助我们更好地理解项目的目标。
数据理解:通过描述性统计和可视化来分析现有的数据。
数据准备:对数据进行格式化,以便于构建一个预测模型。
评估算法:通过一定的方法分离一部分数据,用来评估算法模型,并选取一部分代表数据进行分析,以改善模型。
优化模型:通过调参和集成算法提升预测结果的准确度。
结果部署:完成模型,并执行模型来预测结果和展示。