开源Python网络爬虫资料目录

Python网络爬虫是一个开源的项目，我们会将所有的资料进行公开分享：

了解项目

Python即时网络爬虫项目启动说明

核心代码

Python即时网络爬虫项目：内容提取器的定义 Python即时网络爬虫项目：内容提取器的定义（Python2.7版本）

API规范

下载内容提取器

应用案例

为编写网络爬虫程序安装Python3.5 为采集动态网页安装和测试Python Selenium库快速制作规则及获取规则提取器API 在Python3.5下安装和测试Scrapy爬网站 Python爬虫实战（1）：爬取Drupal论坛帖子列表 Python爬虫实战（2）：爬取京东商品列表 GooSeeker API 例子——用JavaScript下载内容提取器 GooSeeker API 例子——用Java下载内容提取器 Gooseeker API 例子——用Python驱动Firefox采集网页数据 Python网页信息采集-使用PhantomJS采集淘宝天猫商品内容 Python爬虫实战（3）：安居客房产经纪人信息采集 Python爬虫实战（4）：豆瓣小组话题采集---动态网页

关键技术

Python使用xslt提取网页数据 Python爬虫使用Selenium+PhantomJS抓取Ajax和动态HTML内容 1分钟快速生成用与网页内容提取的xslt Python读取PDF内容 Python: xml转json 让Scrapy的Spider更通用 Python信息采集器使用轻量级关系型数据库SQLite

知识拓展

Python爬虫：常用浏览器的useragent Python编程规范 Scrapy的架构初探 Scrapy入门程序点评 Scrapy：python3下的第一次运行测试 Python爬虫：Scrapy研读之Request/Reponse

集搜客GooSeeker开源代码下载源

GooSeeker开源Python网络爬虫GitHub源

文档修改历史

2016-05-29：增加源代码下载GitHub源 2016-06-03：增加API 2016-06-04：在知识拓展一章增加了两篇文章《Scrapy的架构初探》和《Scrapy入门程序点评》 2016-06-05：在知识拓展一章增加了文章《Scrapy:python3下的第一次运行测试》 2016-06-14：在关键技术下增加文章6 2016-06-17：在知识拓展下增加文章《Python爬虫：Scrapy研读之Request/Reponse》 2016-06-19：在应用案例下增加文章《GooSeeker API 例子——用Java下载内容提取器》 2016-06-30：在应用案例下增加文章《Python网页信息采集-使用PhantomJS采集淘宝天猫商品内容》，在关键技术下增加文章《Python信息采集器使用轻量级关系型数据库SQLite》 2016-07-08：在应用案例下增加文章《Python爬虫实战（3）：安居客房产经纪人信息采集》 2016-07-11：在应用案例下增加文章《Python爬虫实战（4）：豆瓣小组话题采集---动态网页》 2016-08-03：在核心代码下增加文章《Python即时网络爬虫项目：内容提取器的定义（Python2.7版本）》 2016-09-27：在应用案例下新增《为编写网络爬虫程序安装Python3.5》 2016-10-11：在应用案例下新增《为采集动态网页安装和测试Python Selenium库》 2016-10-20：在应用案例下新增《快速制作规则及获取提取器API》 2016-10-20：在应用案例下新增《在Python下安装和测试Scrapy爬网站》