初识爬虫—URL

网络爬虫，一门被认为是偷偷摸摸拿人家东西的技术，实则不然，其实爬虫是光明正大的拿人家东西的技术。理直气壮对不对，我喜欢。

网络爬虫，也叫网络蜘蛛。它可以根据网页地址（URL）爬取你想要的数据。

URL 专业一些的叫法是统一资源定位符（Uniform Resource Locator），它的一般格式如下（带方括号[]的为可选项）：

protocol : // hostname[:port] / path / [ ;parameters ] [ ?query ]#fragment

URL 的格式主要由前个三部分组成：

protocol：第一部分就是协议，例如百度使用的就是https协议； hostname[:port]：第二部分就是主机名（还有端口号为可选参数），一般网站默认的端口号为80，例如百度的主机名就是www.baidu.com，这个就是服务器的地址； path：第三部分就是主机资源的具体地址，如目录和文件名等
爬虫就是根据这个url来获取网页信息的。

以百度为例，举个简单的例子：
http://www.baidu.com:80
https://www.baidu.com:443
这两个 URL 都可以打开网页，区别在于一个是 http 协议，一个是 https 协议。
http 协议默认使用的端口是 80，https 协议默认使用的端口是 443。
每一个 URL 的背后&#x

url baidu 网络爬虫服务器 rag