使用Scrapy爬虫框架实现简单项目

1.首先安装Scrapy爬虫第三方库，在命令行安装：

pip install scrapy

2.使用命令行创建项目，需要先在命令行进入你想创建项目的文件夹：

scrapy startproject demo(项目名称)

项目最好不要用全局的python环境，最好自己给项目创建一个虚拟环境venv。

3.进入项目目录中，创建蜘蛛程序：

scrapy genspider douban(蜘蛛程序名称) movie.douban.com(种子链接)

4.编写爬虫代码

5.运行：

在命令行输入：scrapy crawl douban -o douban.csv --nolog

scrapy crawl 蜘蛛程序名字 -o 要存储数据的文件 不输出日志
，支持csv,json,xml,写进excel和数据库的话，需要在pipelines即数据管道中自己实现

如果在数据管道中编写了存储数据的代码，可以直接执行：

scrapy crawl douban(蜘蛛程序名字)

即可运行爬虫。

6.将环境用到的第三方库记录到文件中，方便以后查看：

pip freeze > requirements.txt

7.将文件中记录的依赖批量安装进环境中：

pip install -r requirements.txt