当前位置:AIGC资讯 > 数据采集 > 正文

python爬虫大作业

Python爬虫大作业

一、大作业要求

结合所选专业方向(信息处理、嵌入式、人工智能、大数据处理),用所学Python技术设计并实现一个与专业方向技术相关的、功能完整的系统,并撰写总结报告。

实现要求:
(1)实现时必须涵盖以下技术:
图形界面、
多线程、
文件操作、
数据库编程、
网页爬虫、
异常处理。
缺一不可。少一项则直接影响是否及格。
同时还可结合具体系统功能,使用其它扩展库进行实现。如统计绘图、机器学习等。

举例:
A方向可侧重于应用系统,结合爬虫丰富系统功能,提升用户体验。
B方向如果结合硬件有困难,可从上述方向中选择一个完成;否则可考虑实现物联网。
C方向可侧重于爬取网站图片,并进行图形或图像识别。
D方向可侧重于基于爬虫进行数据采集,并进行数据的统计分析。

(2)系统要具有一定复杂度。应用系统的业务流程不能过于简单,数据库表不能少于5张表。爬取图片不能少于500张。采集数据不能少于1000条,统计分析的目标不能少于3个。

(3)实现时要考虑模块化,不能将所有功能均在一个程序内实现。

♥♥♥下文以大数据D方向为例实现

大作业报告要求~~
(一)报告内容涵盖:
(1)任务需求分析
(2)设计方案(例如:设计用于数据采集的爬虫结构;存储数据方案,如数据库设计;数据分析方案,如从哪些角度分析采集到的数据)
(3)实现细节(如界面实现、业务实现、爬虫实现、数据存储实现、分析实现等)
(4)运行结果

(二)报告格式要求:
(1)正文小四字号,中文为宋体字体,英文数字均为Times New Roman字体。行间距18磅。每个段落首行缩进2字符。
(2)各级标题四号黑体。
(3)每个图要有标号和图名(例:图1 实现数据爬取的程序流程图),标号和图名在图下标识。每个表要有标号和表名(例:表1 Table表结构),标号和表名在表上方标注。
(4)报告页数不能少于12页

成绩评定标准:balabalabala

二、设计方案

1、设计对斗鱼主页进行爬虫,包括直播间封面,主播头像,直播分区。
斗鱼主页https://www.douyu.com/directory/all
斗鱼分区https://www.douyu.com/directory
斗鱼热门视频https://v.douyu.com
2、利用chromedriver.exe进行模拟手动翻页等操作(爬取安全但是速度特别慢 ),使用python3实现爬取数据,使用sqlite数据库进行数据存储,使用pandas模块进行数据分析,使用wxpython模块实现界面。
三、作业软件选择
win10系统,google浏览器,pycharm编译器,navicat数据库管理界面,sqlite数据库,python3.10,。
四、作业实现成果
共包含图形界面、多线程、文件操作、数据库编程、网页爬虫、统计分析并绘图(或数据挖掘)六项技术,

共爬取1000余位主播信息。
2000余张图片。
代码在两个程序内实现。(一个图形实现界面,一个爬虫界面 )。
建立五个sqlite分级表(有一个是master表不显示 )。
从三个方向分析。
图形界面

数据分析界面



引用文献:~~~~~~~~~~~~

上述大作业报告下载链接:https://download.csdn.net/download/m0_57832412/72373924
上述大作业报告+代码实现下载链接:
https://download.csdn.net/download/m0_57832412/72374454
上述代码完全可用,将谷歌驱动放在c盘代码即可运行

有大量需求的,或者想要其他的报告可以私信获取,接受挑选但是无法接受定制
价格和上述一致,量大可以略微打折

更新时间 2023-11-08