KNIME视觉化数据分析
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

自序

在2017年的一天,我看到了一份研究报告,在那份报告中,从各个层面详细地对比了各种商业的、开源的数据分析工具。就在那一天,我遇到了KNIME。

在此之前,我使用过很多数据分析工具,无论是低抽象级别的C/C++、Python、R,还是高抽象级别的MATLAB、Maple、Mathematica,抑或是专攻某一方向的SPSS、Lingo、Orange、Weka、Excel,甚至一些云服务商的工具。

我当时的工作除了开发程序,还涉及一些数据分析工作,主要是通过Python来构建特征并进行分析。数据分析主要是一个探索性的工作,需要我们做出假设和推理,再用数据去验证假设,这也就决定了分析过程并没有一个严格的路径,需要很多试错(trial and error)过程。

当初步调研KNIME之后,我尝试用它来将我之前的工作复现,发现之前用Python断断续续做了半个月的工作,居然一个下午就完全实现了。当然,实现过程这么快除了有KNIME适合这项任务的原因,也有我对之前所做工作的理解变深的原因。总之,我被震撼到了。在此之后,如果一项任务适合用KNIME做,那我就会毫不犹豫地使用它。

KNIME AP(在书中会详细介绍整个KNIME生态环境)是一款开源的、免费的工具,在持续的使用过程中,我积累了一些经验,更重要的是,在进行数据分析的过程中,它为我节省了相当多的时间,带给我很多因为数据分析所获得的洞见。本着“人人为我,我为人人”的精神,我想,我也应该为这款开源工具做一些什么了。于是,我陆陆续续写了一些相关的数据分析文章,发布在“数据分析指北”公众号上,获得了不少正面反馈,甚至有一些朋友,专门加了我的个人微信,只为表达他们的感谢。在思索良久之后,我决定系统地写一写KNIME的使用和数据分析,于是有了这本书。

本书是目前(截至2022年10月)市面上唯一一本系统性地介绍KNIME数据分析的中文教程。其中包含公众号“数据分析指北”的一些内容(做了大量修订,且出版社老师为了提高可读性做了不少文字方面的修改),包含对KNIME大部分节点完整的覆盖性介绍,相信读者在了解之后,会对节点的使用游刃有余。另外,书中还有一些高阶内容,比如流变量、循环、分支、错误处理、可视化、模块化、Java、Python节点、测试、时间序列分析、深度学习,甚至KNIME扩展开发等,能让读者更深入地了解和使用KNIME。

按照当今的流行术语来说,KNIME是一款通用型的低代码(low code)数据分析软件,也就是说,它的主要操作方式通过“拖拉曳”就能完成。

本书适合所有日常有数据分析需求的读者,能帮助其轻松应对大部分常见的数据分析问题。

写作本书的过程是一个非常艰辛的过程,其中的工作量就像是写了四、五篇完整的毕业论文。在整个写作过程中,zz出生,zz妈及岳父、岳母承担了很多原本应该由我承担的责任;母亲病重去世,父亲也承担了很多原本应该由我承担的责任。我感到无比愧疚和自责。

之前我对zz妈说,这本书献给我生命中两个重要的女人,一个是我的母亲,另一个是她。我希望这本书能带给你(读者)和我新的一天。在此之后,你我的任何一天都会和以前不一样。

感谢电子工业出版社石倩老师在本书出版过程中给予我的帮助,包括但不限于负责整个出版流程、各种琐事,以及对文字的悉心修正。还有一些我叫不出名字的背后的工作人员,正是因为有你们认真负责的工作,这本书才有幸出现在读者手中。

本书主要内容由我完成,杜晓刚编写了本书的高级内容——深度学习、时间序列分析、机器学习相关内容的撰写,温景阳编写了本书的进阶内容。

本书获得了国家自然科学基金项目(61861024)和甘肃省自然科学基金(20JR5RA404)资助。在此一并表示感谢。

雒玉玺(指北君)