22306班
未读
3.2月23日 项目:北京菜品市场数据存储(json形式)
上节课程中,通过程序爬取了“新发地”市场数据。 本课解决存储问题。 代码不够优化 获取到的数据没存储 数据不利于查看 数据存储 数据不存储,后续没法用。 较为常见的形式 json形式 excel形式 mysql数据库形式 hadoop分布式存储 以上各有特点。 json形式 简单,适用于数据量小的情
22306班
未读
2.2月21日 项目:北京菜品市场数据爬取
案例参考链接:新发地-价格行情 这个网站上有34万多条470多个品类的菜品价格数据!(2022年开始至今,宝藏网站) 现,我们需要分析北京市场菜品价格变化,首先我们需要把他“爬”下来。 什么是网络爬虫? 解释 网络爬虫是一种自动化程序,设计用来浏览互联网,并收集特定网站上的信息。它们可以按照预先定义