网络爬虫,一门被认为是偷偷摸摸拿人家东西的技术,实则不然,其实爬虫是光明正大的拿人家东西的技术。理直气壮对不对,我喜欢。
网络爬虫,也叫网络蜘蛛。它可以根据网页地址(URL)爬取你想要的数据。
URL 专业一些的叫法是统一资源定位符(Uniform Resource Locator),它的一般格式如下(带方括号[]的为可选项):
protocol : // hostname[:port] / path / [ ;parameters ] [ ?query ]#fragment
URL 的格式主要由前个三部分组成:
protocol:第一部分就是协议,例如百度使用的就是https协议; hostname[:port]:第二部分就是主机名(还有端口号为可选参数),一般网站默认的端口号为80,例如百度的主机名就是www.baidu.com,这个就是服务器的地址; path:第三部分就是主机资源的具体地址,如目录和文件名等爬虫就是根据这个url来获取网页信息的。
以百度为例,举个简单的例子:
http://www.baidu.com:80
https://www.baidu.com:443
这两个 URL 都可以打开网页,区别在于一个是 http 协议,一个是 https 协议。
http 协议默认使用的端口是 80,https 协议默认使用的端口是 443。
每一个 URL 的背后&#x