python爬虫实训实验报告_用Pycharm进行scrapy爬虫的实验报告

1. 实验内容

使用Pycharm写代码，采用scrapy爬取红袖小说网前十页的作品信息。

2. 试验环境

操作系统：window10 家庭版64位操作系统

Python版本：python 3.7.3

3. 实验

3.1 观察网页结构，制定爬取逻辑

使用firefox浏览器打开红袖小说网，使用开发者工具（Fn+F12）观察网页结构，获取相应元素的xpath语句。

由于我们需要在每本小说的详情页中进行文本的提取，所以这里需要观察每一页的网址构成找出规律。

网址链接分为三部分：主页+gender+catID

在此处我选择前十页的作品进行信息的爬取。

随便挑选一本小说的详情页进行网页结构解析，此处为小说名称、作者、小说类别的元素所在位置。

小说名称、作者、小说类别

此为这本小说的总字数、收藏量、点击量和简介的元素所在位置。

说的总字数、收藏量、点击量和简介

这是小说封面图片的url

图片的url