22306班
未读
28.5月6日 项目: 登录B站爬取推荐和评论
上一节课中,我们简单的介绍了selenium库的使用。 项目:爬取B站首页推荐内容 准备活动 from selenium import webdriver
from selenium.webdriver.common.by import By
import time
browser = webdri
22306班
未读
4.2月26日 项目: 北京菜市场数据存储 (excel形式)
之前课程中我们将获取到的数据存储到了多个json文件中, 虽然完成了数据的存储,但数据分散,且不直观,也无法分析。 故本节课,将数据存储到excel中能更便于查看和分析。 本课使用数据集如下(就是上节课的代码下载的,只不过我下载的数据量比较大): 新发地34W条数据.zip openpyxl库的使用
22306班
未读
3.2月23日 项目:北京菜品市场数据存储(json形式)
上节课程中,通过程序爬取了“新发地”市场数据。 本课解决存储问题。 代码不够优化 获取到的数据没存储 数据不利于查看 数据存储 数据不存储,后续没法用。 较为常见的形式 json形式 excel形式 mysql数据库形式 hadoop分布式存储 以上各有特点。 json形式 简单,适用于数据量小的情