python爬虫国内外研究现状怎么写_python爬虫入门笔记--爬虫简介

、爬虫：写程序，然后去互联网上抓取数据的过程

互联网：网，有好多a连接组成，王的节点就是每一个a链接，url(统一资源定位符)

通用爬虫，聚焦爬虫

通用爬虫：百度 360 搜狐 bing 。。。

原理：

(1)抓取网页

(2) 采集数据

(3)数据处理

(4)提供检索服务

爬虫：baiduspider

通用爬虫如何抓取新网站?

(1)主动提交url

(2)设置友情链接

(3)百度会和dns服务商合作，抓取新网站

检索排名：竞价排名，根据pagerank值、访问量，点击量(seo)

robots.txt

如果不想让爬虫爬取，可以编写robots.txt，这个协议只是口头上的协议。自己写的爬虫程序不需要遵从。

聚焦爬虫：

根据特定的需求，抓取指定的数据

思路？

代替浏览器上网！

网页的特点：

(1)网页都有自己的唯一的url

(2)网页内容都是html结构

(3)使用的都是http，https协议

爬取步骤：

(1)给一个url

(2)写程序，模拟访问浏览器url

(3)解析内容，提取数据

环境：windows，linux

python3.6 64位

Sublime pycharm等

课程内容：

(1)使用到的库：urllib、requests、bs4.。。

(2)解析网页内容的知识

正则表达式，bs4，xpath，jsonpath

(3)涉及到动态html

selenium+phantomjs，chromeheadless

(4)scrapy框架

高性能框架使用

(5)scrapy-redis组件

redis，分布式爬虫

(6)涉及到的爬虫-反爬虫--反反爬虫的一些内容

Ua ，代理，验证码，动态页面等