当前位置:AIGC资讯 > 数据采集 > 正文

零基础爬虫之http协议


????????? ???????? ???????? ???????? ???????? ???????? ???????? ???????? ???????? ???????? ?????
??
???
???? 作者 : 不良使
????? 潜力创作新星 华为云享专家
?????? 博客记录学习的思路,项目和错误,寻找志同道合的朋友
??????? 如果觉得有帮助记得一键三连 ┗|`O′|┛ 嗷~~
????????
???????? ???????? ???????? ???????? ???????? ??????? ???????? ???????? ???????? ???????? ???????

超文本传输协议(Hyper Text Transfer Protocol,HTTP)是一个简单的请求-响应协议,它通常运行在TCP之上。它指定了客户端可能发送给服务器什么样的消息以及得到什么样的响应。请求和响应消息的头以ASCII形式给出;而消息内容则具有一个类似MIME的格式。这个简单模型是早期Web成功的有功之臣,因为它使开发和部署非常地直截了当。

HTTP协议

?? TODO 全称(HyperText Transfer Protocol)

超文本传输协议 (HTTP)
超级文本(超越文本限制或者超链接[不属于文本之内的,例如href=“超链接”])
。图片、音乐、视频等
。可以传递任意格式的数据
。传输HTTP协议数据基于TCP传输协议。发送数据需要先建立连接
作用:规定了浏览器和web服务器通信数据的格式,也就是访问web服务器需要http协议

??URL

URL 统一资源定位符 网络资源地址(网址)
。协议部分 http:// https:// ftp://
。域名 www.baidu.com

在爬虫(网页抓取数据的过程中),有时候也第一次请求不一定会返回数据,有时候数据会第二次返回,后面会涉及到,下面来看一个简单的爬虫小案例吧

??小例子

# coding=utf-8
# TODO                鸟欲高飞,必先展翅
# TODO                 向前的人 :Jhon


import requests
data=input("请输入你需要查询的:")
url=f"https://www.sogou.com/web?query={data}"
headers={
    'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.4951.67 Mobile Safari/537.36',
    'Cookie': 'SNUID=5D134619CACE15B96936860ACB03A57C; IPLOC=CN3402; SUID=96D98DD3A021B00A000000006287AB32; SUV=1653058354552776; wuid=AAFJzJKYPQAAAAqMGh4aJgEA1wA=; front_screen_resolution=2884*2666; front_screen_dpi=2.0000000298023224; ld=6lllllllll2APf7hlllllp34$1Dlllll1cTBOkllllUlllllVllll5@@@@@@@@@@',
    'Referer': 'https://m.sogou.com/web/searchList.jsp?s_from=pcsearch&keyword=%E5%91%A8%E6%9D%B0%E4%BC%A6'
}
response=requests.get(url,headers=headers)
print(response)
print(response.url)
print(response.text)
response.close()

结果

**觉得有用的可以给个三连,关注一波!!!带你了解更多爬虫小知识

更新时间 2023-11-08