Python 3 数据分析与机器学习实战
上QQ阅读APP看书,第一时间看更新

0.3 本书的技术体系

全书共17章,分为三部分:第0~3章介绍本书的技术体系Python基础知识,Python的安装、配置与卸载,基础语法;第4~7章介绍Python 3的编程、机器学习基础、Python机器学习及分析工具和数据预处理的基本方法;第8~16章介绍常用的机器学习分析算法及深度学习。每章都结合多个经典案例图文并茂地介绍机器学习的原理和实现方法。

第1章(Python基础知识)主要向读者介绍Python的基本知识、起源、优缺点、主要版本和应用领域。通过该章的学习,可以使读者对Python语言的前世今生有一个较为清晰的了解。

只有搭建了Python的学习环境后,才能开始进行Python的学习。因此在介绍如何使用Python之前,第2章(Python的安装与配置)重点介绍如何对Python进行安装和配置。

在介绍机器学习及数据分析之前,第3章(Python3基础语法)介绍Python的基本使用方法,主要内容包括:标识符、变量、注释、多行语句;行与缩进、运算符;Python的输入和输出;Python的基本数据类型;Python库的导入;Python的集成开发环境等。这一章的基本知识和概念对于后续章节的学习来说是一个基础,如果读者刚刚接触Python并且最终目的是机器学习及相关算法,这些基础知识加上对机器学习算法中的代码的详细讲解,已经可以保证读者能够使用Python完成机器学习及数据分析。不过本书重点放在机器学习及数据分析上面,因此对Python的基础知识不可能完全涵盖,如果读者需要更深入地学习Python的其他知识和应用,可以查阅其他图书。

学习编程语言中经常使用的条件、循环、函数等语法格式及使用方法,掌握这些内容也为后面章节的机器学习及数据处理做好铺垫。第4章(Python 3的编程)就介绍这些内容,通过这一章的学习,读者可以初步掌握使用Python语言编制一些基本程序的方法,为后续部分的机器学习编程打好基础。

第5章(机器学习基础)开始介绍机器学习的基本概念及分类,通过这一章的学习,读者可以通过形象的概念描述,了解什么是机器学习,什么是监督学习、非监督学习、增强学习等。

由于Python本身的数据分析功能并不是很强,除Python语言之外,还有一些常用于执行数据处理和机器学习的开源软件库。有很多的科学Python库(Scientific Python Libraries)可用于执行基本的机器学习任务,如NumPy、 Pandas、 Matplotlib、Scikit-learn等,读者可以借助这些第三方扩展库来实现数据分析和机器学习的功能。第6章(Python机器学习及分析工具)就是初步认识一下这些常见的软件库。

数据是机器学习和数据分析的基础,没有良好的数据,分析所得到的结果就有问题,因此,在数据分析之前经常会对数据进行预处理。第7章(数据预处理)主要介绍数据预处理方面的基本知识,包括数据预处理概述、数据清理、数据集成、数据变换、Python的主要数据预处理函数等知识。

分类问题是一种监督学习方式,分类器的学习是在被告知每一个训练样本属于哪个类别的情况下进行的,每个训练样本都有一个特定的标签与之相对应。在学习过程中,从这些给定的训练数据集中学习一个函数,当新的数据到来时,可以根据这个函数判断结果。第8章(分类问题)将介绍几种常见的分类学习方法,并通过实例介绍其基本使用方法,主要内容包括k-近邻算法、朴素贝叶斯、支持向量机、AdaBoost算法等。

在人类的日常学习中,也发展出一种新的学习方法,即预测。预测是指在掌握现有信息的基础上,依照一定的方法和规律对未来的事情进行测算,以预先了解事情发展的过程与结果。第9章(预测分析)将介绍预测分析,并通过实例介绍其基本使用方法。主要介绍以下两种分析方法:时间序列预测模型和BP神经网络预测模型。

关联分析是一种无监督机器学习方法,主要用于发现大规模数据集中事物之间的依存性和关联性,挖掘数据中隐藏的有价值的关系(如频繁项集、关联规则),不仅有利于对相关事物进行预测,也能帮助系统制订合理的决策。第10章(关联分析)介绍关联分析,并通过实例介绍其基本使用方法,主要内容包括Apriori算法、FP-Growth算法等。

网络爬虫,被广泛用于互联网搜索引擎或其他类似网站,以获取或更新这些网站的内容和检索方式。它们可以自动采集所有其能够访问到的页面内容,以供搜索引擎做进一步的处理,使用户能更快地检索到他们需要的信息。第11章(网络爬虫)介绍网络爬虫的基本知识,并通过实例介绍其基本使用方法,主要内容包括网页抓取策略和方法,如用Python抓取指定的网页、用Python抓取包含关键词的网页、用Python抓取贴吧中的图片等。

集成学习(Ensemble Learning)是目前机器学习的一大热门方向。简单来说,集成学习就是组合许多弱模型以得到一个预测效果较好的强模型。常见的分类问题是指采用多个分类器对数据集进行预测,把这些分类器的分类结果进行某种组合(如投票)决定分类结果,从而提高整体分类器的泛化能力。第12章(集成学习方法)介绍集成学习方法,并通过实例介绍其基本使用方法,主要内容包括Bagging和随机森林、Boosting和AdaBoost等。

随着AlphaGo(阿尔法狗)机器人战胜人类顶尖棋手李世石,深度学习已经成为一个非常火热的话题,深度学习也成为机器学习研究领域的新方向。深度学习最早的应用领域是图像识别,短短几年内已经推广到语音识别、机器人、生物信息学、搜索引擎、医疗诊断和金融等很多机器学习领域,而且都有不错的表现。第13章(深度学习)介绍深度学习方法,并通过实例介绍其基本使用方法,主要内容包括卷积神经网络、TensorFlow框架和Theano框架。

在实际数据处理过程中,数据的形式是多种多样的,维度也各不相同,数据中有可能含有噪声,也可能包含冗余信息,当遇到这些情况时,需要对数据进行处理,将数据从高维特征空间向低维特征空间映射。第14章(数据降维及压缩)介绍在机器学习及数据处理中经常使用的数据降维和压缩的算法,主要内容包括主成分分析和奇异值分解。

机器学习方法主要分为有监督的学习方法和非监督学习方法两种。聚类分析就是典型的非监督学习方法,它在没有给定划分类别的情况下,根据数据自身的距离或相似度进行样本分组。第15章(聚类分析)介绍了聚类的原理及经典的K-means算法的使用方法。

回归分析是一种预测性的建模技术,它研究的是因变量和自变量之间的关系。本书第16章(回归分析问题)重点介绍了什么是回归及其应用,并使用实例分别介绍了一元回归分析、多元回归分析、非线性回归分析和逻辑回归分析。