、爬虫:写程序,然后去互联网上抓取数据的过程
互联网:网,有好多a连接组成,王的节点就是每一个a链接,url(统一资源定位符)
通用爬虫,聚焦爬虫
通用爬虫:百度 360 搜狐 bing 。。。
原理:
(1)抓取网页
(2) 采集数据
(3)数据处理
(4)提供检索服务
爬虫:baiduspider
通用爬虫如何抓取新网站?
(1)主动提交url
(2)设置友情链接
(3)百度会和dns服务商合作,抓取新网站
检索排名:竞价排名,根据pagerank值、访问量,点击量(seo)
robots.txt
如果不想让爬虫爬取,可以编写robots.txt,这个协议只是口头上的协议。自己写的爬虫程序不需要遵从。
聚焦爬虫:
根据特定的需求,抓取指定的数据
思路?
代替浏览器上网!
网页的特点:
(1)网页都有自己的唯一的url
(2)网页内容都是html结构
(3)使用的都是http,https协议
爬取步骤:
(1)给一个url
(2)写程序,模拟访问浏览器url
(3)解析内容,提取数据
环境:windows,linux
python3.6 64位
Sublime pycharm等
课程内容:
(1)使用到的库:urllib、requests、bs4.。。
(2)解析网页内容的知识
正则表达式,bs4,xpath,jsonpath
(3)涉及到动态html
selenium+phantomjs,chromeheadless
(4)scrapy框架
高性能框架使用
(5)scrapy-redis组件
redis,分布式爬虫
(6)涉及到的爬虫-反爬虫--反反爬虫的一些内容
Ua ,代理,验证码,动态页面等