22306班
未读
10.3月11 数据分析三剑客的使用—numpy
数据分析三剑客 数据分析三剑客是指 NumPy、Pandas 和 Matplotlib 这三个 Python 库。它们是数据分析领域最常用的工具,可以满足大多数数据分析需求。 NumPy 是一个用于科学计算的 Python 库。它提供了一个强大的 n 维数组对象,并支持大量的数学函数。NumPy 非
22306班
未读
9.3月7日 阶段复习
ubuntu环境 注意虚拟机克隆到D盘 真机设置网卡 虚拟机设置网卡 安装ssh sudo apt install ssh 真机通过xshell连接虚拟机 后续操作通过xshell 进行 mysql数据库 5.2月28日 mysql环境部署 请创建数据库“my_db” 并创建表 班级 姓名 期中语文
22306班
未读
8.3月6日 项目:学生考试成绩—数据储存
上节课完成了对单个班级成绩的爬取,本次任务为爬取多个班级的期中期末成绩。 并存储到excel和数据库中。 为,下一次课的成绩分析做预备。 数据爬取 爬取多个班级 class_list=['22301','22302','22303','22304','22305','22306']
for cla
22306班
未读
7.3月4日 项目:学生考试成绩—爬取成绩
之前项目我们进行了简单的数据爬取,数据存储(json,excel,mysql),基本不涉及数据分析和数据处理 项目分析 本次项目,我们需完成我校学生期中期末考试成绩爬取。存储到我们本地数据库中,并对班级成绩,学生个人成绩进行分析。最终形成分析图表。 关于需要用户登录的网站的数据爬取: 网页请求是如何
22306班
未读
6.2月29日 项目:北京菜品市场数据存储(mysql数据库形式)
数据库创建和数据表创建 步骤1:登录后 创建数据库 登录 MySQL 控制台: sudo mysql -u xd -p
在 MySQL 控制台中,执行以下命令创建数据库my_db: CREATE DATABASE my_db;
USE my_db;
步骤2:创建数据表 CREATE
22306班
未读
5.2月28日 mysql环境部署
由于机房环境,每次必须将真机连接虚拟机的网卡设置为IP自动获取 打开服务器后: 重启网卡,查看IP地址 打开“终端” 输入 sudo apt install ssh。安装SSH,用于远程连接 接下来在真机打开xshell,使用XSHELL 进行远程连接 我提供的虚拟机默认用户名:xiandai 密码
22306班
未读
4.2月26日 项目: 北京菜市场数据存储 (excel形式)
之前课程中我们将获取到的数据存储到了多个json文件中, 虽然完成了数据的存储,但数据分散,且不直观,也无法分析。 故本节课,将数据存储到excel中能更便于查看和分析。 本课使用数据集如下(就是上节课的代码下载的,只不过我下载的数据量比较大): 新发地34W条数据.zip openpyxl库的使用
22306班
未读
3.2月23日 项目:北京菜品市场数据存储(json形式)
上节课程中,通过程序爬取了“新发地”市场数据。 本课解决存储问题。 代码不够优化 获取到的数据没存储 数据不利于查看 数据存储 数据不存储,后续没法用。 较为常见的形式 json形式 excel形式 mysql数据库形式 hadoop分布式存储 以上各有特点。 json形式 简单,适用于数据量小的情
22306班
未读
2.2月21日 项目:北京菜品市场数据爬取
案例参考链接:新发地-价格行情 这个网站上有34万多条470多个品类的菜品价格数据!(2022年开始至今,宝藏网站) 现,我们需要分析北京市场菜品价格变化,首先我们需要把他“爬”下来。 什么是网络爬虫? 解释 网络爬虫是一种自动化程序,设计用来浏览互联网,并收集特定网站上的信息。它们可以按照预先定义
22306班
未读
1.2月19日课程介绍与学习方式
课程介绍 数据处理基础 纯应用课程 数据收集(爬虫) 数据处理 数据分析 数据可视化 期中考试目标:全校学生质量分析 期末考试目标:泰坦尼克机器学习项目 Linux 基础课程 做好大数据课程的环境准备工作 搭建各种应用 期中考试目标:搭建基础网站 期末考试目标:多应用搭建 大数据平台搭建与应用 ha