Python爬虫学习-简单爬取网页数据

疫情宅家无事，就随便写一些随笔吧QwQ…

这是一篇介绍如何用Python实现简单爬取网页数据并导入MySQL中的数据库的文章。主要用到BeautifulSoup requests 和 pymysql。

以网页https://jbk.39.net/mxyy/jbzs/为例，假设我们要爬取的部分数据如下图所示：

一、准备工作

1.导入BeautifulSoup和requests库：

from bs4 import BeautifulSoup
import requests

2.要想获得网页html内容，我们首先需要用requests库的.get()方法向该网页的服务器构造并发送一个请求。requests.get()方法需要传递两个参数，一个是网页的url，在这里显然是https://jbk.39.net/mxyy/jbzs/；另一个参数是浏览器的header。查看方法如下：
点击进入任意一个网页页面，按F12进入开发者模式，点击Network再刷新网页。在Network下的Name中任意点击一个资源，在右侧的Headers版块中下拉到最后，可以看见Request Headers参数列表最后有一个user-agent，其内容就是我们要找的浏览器headers参数值。