当前位置:AIGC资讯 > 数据采集 > 正文

爬虫练习题(一)

博主链接:张立梵的爬虫开端 个人介绍:小编大一视传在读,目前即将大二 欢迎大家对文章 关注点赞收藏

最近小伙伴问我有什么刷题网站推荐,我在这里推荐一下牛客网,这里面包含各种题库,全都是免费的题库,可以全方面提升你的数据操纵逻辑,提升编程实战技巧,赶快来一起刷题吧牛客网笔试题库|面试经验

 Don't just follow the path .Make your own trail .
不要只是沿着路走,走你自己的路。

        这次发稿具有极强的纪念意义,生日当天发稿,开启了我网络笔记的生涯,以及加深了对爬虫的无限热爱,希望大家能够给予我支持!!!第一次发稿还请多多支持!!!以后精彩不断哦。

10.(选做题1)目标网站https://www.sogou.com/
要求:
1.用户输入要搜索的内容,起始页和终止页
2.根据用户输入的内容爬取相关页面的源码
3.把获取下来的数据保存到本地

import requests
word = input("请输入搜索内容")
start = int(input("请输入起始页"))
end = int(input("请输入结束页"))
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.127 Safari/537.36 Edg/100.0.1185.44'
}
for n in range(start, end + 1):
    url = f'https://www.sogou.com/web?query={word}&page={n}'
    # print(url)
    response = requests.get(url, headers=headers)
    with open(f'{word}的第{n}页。html', "w", encoding="utf-8")as file:
        file.write(response.content.decode("utf-8"))

一、分析网页

        1.先录入网址

python - 搜狗搜索 (sogou.com)https://www.sogou.com/web?query=python&_ast=1650447467&_asf=www.sogou.com&w=01029901&p=40040100&dp=1&cid=&s_from=result_up&sut=7606&sst0=1650447682406&lkt=0%2C0%2C0&sugsuv=1650427656976942&sugtime=1650447682406         2.分别搜索 “Python”,“中国”并进行网址对比。

更新时间 2023-11-08