当前位置:AIGC资讯 > 数据采集 > 正文

初识爬虫—URL

网络爬虫,一门被认为是偷偷摸摸拿人家东西的技术,实则不然,其实爬虫是光明正大的拿人家东西的技术。理直气壮对不对,我喜欢。

网络爬虫,也叫网络蜘蛛。它可以根据网页地址(URL)爬取你想要的数据。

URL 专业一些的叫法是统一资源定位符(Uniform Resource Locator),它的一般格式如下(带方括号[]的为可选项):

protocol : // hostname[:port] / path / [ ;parameters ] [ ?query ]#fragment

URL 的格式主要由前个三部分组成:

protocol:第一部分就是协议,例如百度使用的就是https协议; hostname[:port]:第二部分就是主机名(还有端口号为可选参数),一般网站默认的端口号为80,例如百度的主机名就是www.baidu.com,这个就是服务器的地址; path:第三部分就是主机资源的具体地址,如目录和文件名等
爬虫就是根据这个url来获取网页信息的。

以百度为例,举个简单的例子:
http://www.baidu.com:80
https://www.baidu.com:443
这两个 URL 都可以打开网页,区别在于一个是 http 协议,一个是 https 协议。
http 协议默认使用的端口是 80,https 协议默认使用的端口是 443。
每一个 URL 的背后&#x

更新时间 2023-11-08