![Python数据预处理技术与实践](https://wfqqreader-1252317822.image.myqcloud.com/cover/321/27563321/b_27563321.jpg)
上QQ阅读APP看书,第一时间看更新
3.4 爬取数据以JSON格式进行存储
上一节介绍了如何分析网页数据并爬取数据,得到数据以后如何进行存储呢?本节主要介绍JSON格式数据的本地化存储,具体操作步骤如下。
1. 修改管道文件
使用pipline.py文件作为管道文件,负责处理Spider中获取到的实体特征信息,并进行存储。这里需要导入JsonItemExporter模块进行JSON操作,然后在JsonExporterPipleline方法中执行具体的写操作,完整的代码如下:
![](https://epubservercos.yuewen.com/FBFBF6/15825992205221306/epubprivate/OEBPS/Images/Figure-P82_39260.jpg?sign=1739228030-Lxp2aZMksvCkDX90tuFJegKEDLDtvIZd-0-598f62a460df0abf723e23811b843139)
2. 修改设置文件
在setting.py设置文件中修改方法的执行优先级。数字从小到大,数字越小,优先级就越高,具体设置如下:
![](https://epubservercos.yuewen.com/FBFBF6/15825992205221306/epubprivate/OEBPS/Images/Figure-P82_39259.jpg?sign=1739228030-UhiWNCg5FqHM9bUgGGWBFMIvdrvOEuTY-0-967e5a58352f2e805e45310d801c969a)
3. JSON格式数据的本地化存储
运行main.py文件,实现本地JSON文件存储。执行完成后,打开articleexport.json文件查看结果,如图3-13所示。
![](https://epubservercos.yuewen.com/FBFBF6/15825992205221306/epubprivate/OEBPS/Images/Figure-P83_12929.jpg?sign=1739228030-FaWbXtL8vE0cku9OSuj4VSFJuAlOJxdP-0-93ff67235efa9f750756dd3c514bdc85)
图3-13 JSON格式数据的本地化存储