Python数据分析
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

前言

大语言模型(例如ChatGPT)减轻了传统数据分析中特征工程的工作量,能够自动学习语义特征与潜在表征。基于大语言模型的API,可以快速构建低代码的数据分析应用。在大语言模型时代,人们有两个疑问:①传统的数据分析基础是否仍然有价值?②如何协同使用大语言模型和传统的数据分析模型?

在大语言模型兴起的时代,传统的数据分析方法仍然具有重要的价值。首先,相比于大语言模型的“黑箱”,许多传统模型如线性回归、决策树等具有较高的可解释性,更容易被人理解,这在一些对可解释性有较高需求的应用中十分重要。其次,相比大语言模型,一些传统模型(例如支持向量机、随机森林)已经经受长时间的检验与实践,预测表现更加可靠,这对要求稳定性较高的系统更为适用。

因此,在大语言模型时代,传统数据分析方法依然发挥着很大作用,并且与新技术的结合将产生更强大的效果,这需要我们在具体问题中寻求两者的最佳衔接与协同。本书不仅讲解数据分析的基本技术,而且补充了利用大语言模型做数据分析的案例。

学习本书,读者将会有以下收获。

提升数据分析与建模能力。

本书涵盖了Python基础知识、网络爬虫、正则表达式、BeautifulSoup和JSON、词语切分、自然语言处理、使用NumPy进行科学计算、使用Pandas处理数据、数据可视化、MySQL、机器学习、朴素贝叶斯模型、支持向量机、随机森林、深度学习以及量化投资。

丰富金融学、经济学、管理学知识。

本书知识点围绕财经领域的数据分析案例展开,比如,股票市场、量化交易、风险投资、智慧城市建设、股吧评论情感分析等。此外,我们在扩展阅读环节介绍了更多财经领域的数据分析实践案例。

熟悉基于大语言模型的数据分析与建模方法。

授人以鱼不如授人以渔,目前以ChatGPT为代表的大语言模型已经成为我们学习的帮手。本书中的扩展阅读选择了使用大语言模型进行数据分析的案例,引导大家学习使用大语言模型以提升学习数据分析的效率,构建无代码或低代码的数据分析应用。

我们鼓励读者保持好奇心,勇于尝试,不断学习。关于数据分析的新技术和新方法层出不穷,持续的学习和实践将是读者成功的关键。

本书由西南财经大学王俊教授担任主编;西南财经大学郑海超教授、肖辉教授、蒋太翔教授、李庆教授担任副主编。

本书在编写过程中得到了机械工业出版社的大力支持,在此向为本书付出辛勤劳动的机械工业出版社的相关老师表示感谢。由于作者水平有限,疏漏之处在所难免,敬请广大读者批评指正。

编者

2024年9月