22306班
未读
31.5月9日 临时使用jieba版
本项目预期结果: 步骤一:导入评论数据 在5月6日课程中,我们已经获取了B站视频的前200条热门评论。 我们利用之前课程结果“B站评论.json”。 我们首先实现读取json文件内容: import json
with open('B站评论.json', 'r', encoding='utf-8')
22306班
未读
30.5月8日 项目:利用hanlp实现热门评论内容分词并绘制词云
本项目预期结果: 项目:利用hanlp实现热门评论内容分词并绘制词云 利用上节课简易的框架 import hanlp
tok = hanlp.load(hanlp.pretrained.tok.COARSE_ELECTRA_SMALL_ZH)
r=tok("你好,我是现代职业技术学校学生&quo
22306班
未读
29.5月8日 项目: 实现分词
分词 什么是分词 分词(Tokenization)是自然语言处理(NLP)中的一个基本步骤,它涉及将文本数据分解成更小的单元,通常是单词、短语或其他有意义的元素,这些单元被称作“词元”(tokens)。分词的目的是让计算机能够更好地理解和处理文本信息。以下是分词的一些关键点: 文本分解:将文本字符串
22306班
未读
27.4月29日 项目: selenium库实现爬虫,爬B站
selenium库 Selenium是一个用于Web应用程序测试的工具。Selenium测试可以运行在多种浏览器上,包括但不限于Chrome、Firefox、Safari和Internet Explorer。 注意:selenium 库原本设计是应用在网页测试上的。 当下,各种网站的反爬虫手段愈发高
22306班
未读
23.4月8日 项目:学生成绩分析—个人雷达图绘制
绘制学生个人成绩雷达图 绘制雷达图,能直观的反映学生语文数学成绩,并就 某次考试的成绩和平均成绩进行对比 期中、期末成绩进行对比展现进步退步情况 目标图 1. 准备工作(已经完成的可以忽略): 还原mysql数据库,为了统一进度。本次数据库,进行统一还原操作 方式可以通过: cj.sql phpad
22306班
未读
22.4月3日 项目:学生成绩分析—绘制学生成绩
绘制单学生成绩 每次考试后家长会上,班主任都需要向同学们出具成绩单。 本次任务我们绘制图表,让成绩能更直观的进行呈现。 通过循环将某班所有学生的图一次绘制出。 目标图 准备工作 准备好数据库 数据库中存在相应数据(看之前内容) 需要在原先代码上进行修改 步骤一:复制并修改原先代码 # 引入部分都要
22306班
未读
21.4月3日 项目:学生成绩分析—代码修正并优化使用体验
此部分是完成上节课留下的尾巴 上节课的基础 import numpy as np
import pandas as pd
from pandas import Series,DataFrame
import matplotlib.pyplot as plt
import pymysql
impor
22306班
未读
20.4月1日 项目:学生成绩分析—图表绘制
概述: 从数据库中读取成绩数据,并按照班级绘制成绩分布图 目标图: 1. 准备工作: 还原mysql数据库,为了同意进度。本次数据库,进行统一还原操作 方式可以通过: cj.sql phpadmin 通过命令导入(本次使用) 通过以下命令将cj.sql传输进ubuntu scp .\cj.sql x
22306班
未读
16.3月20日 DataFrame的数据清洗
Pandas 数据清洗 数据清洗是对一些没有用的数据进行处理的过程。 很多数据集存在数据缺失、数据格式错误、错误数据或重复数据的情况,如果要使数据分析更加准确,就需要对这些没有用的数据进行处理。 在这个教程中,我们将利用 Pandas包来进行数据清洗。 data.csv 上表包含了四种空数据: n/
22306班
未读
15.3月20日 数据分析DataFrame应用
在上节课的基础上,完成 1. 统计某工号整年收入数据(求和) import numpy as np
import pandas as pd
from pandas import Series,DataFrame
import matplotlib.pyplot as plt
df_csv = pd