当前位置:AIGC资讯 > 数据采集 > 正文

python爬虫实训实验报告_用Pycharm进行scrapy爬虫的实验报告

1. 实验内容

使用Pycharm写代码,采用scrapy爬取红袖小说网前十页的作品信息。

2. 试验环境

操作系统:window10 家庭版64位操作系统

Python版本:python 3.7.3

3. 实验

3.1 观察网页结构,制定爬取逻辑

使用firefox浏览器打开红袖小说网,使用开发者工具(Fn+F12)观察网页结构,获取相应元素的xpath语句。

由于我们需要在每本小说的详情页中进行文本的提取,所以这里需要观察每一页的网址构成找出规律。

网址链接分为三部分:主页+gender+catID

在此处我选择前十页的作品进行信息的爬取。

随便挑选一本小说的详情页进行网页结构解析,此处为小说名称、作者、小说类别的元素所在位置。

小说名称、作者、小说类别

此为这本小说的总字数、收藏量、点击量和简介的元素所在位置。

说的总字数、收藏量、点击量和简介

这是小说封面图片的url

图片的url

更新时间 2023-11-08