爬虫是什么？可以用来干什么？

随着科技不断发展，互联网已经进入了大数据时代。

我们过去只能通过报刊杂志、电视广播获取到有限的信息，而现在，互联网上的海量数据，让我们享受到了信息自由。

但是，我们获取到了海量的信息同时，也带来了大量的垃圾信息。

所以必须要通过一些技术手段进行收集、整理、分析、筛选，然后才能获取到对我们有用的相关内容。
而这个技术手段，就叫网络爬虫技术。

网络爬虫
网络爬虫就是一种可以从网页上抓取数据信息并保存的自动化程序，它的原理就是模拟浏览器发送网络请求，接受请求响应，然后按照一定的规则自动抓取互联网数据。

1、获取网页
获取网页可以简单理解为向网页的服务器发送网络请求，然后服务器返回给我们网页的源代码，其中通信的底层原理较为复杂，而Python给我们封装好了urllib库和requests库等，这些库可以让我们非常简单的发送各种形式的请求。

2、提取信息
获取到的网页源码内包含了很多信息，想要进提取到我们需要的信息，则需要对源码还要做进一步筛选。可以选用python中的re库即通过正则匹配的形式去提取信息，也可以采用BeautifulSoup库（bs4）等解析源代码，除了有自动编码的优势之外，bs4库还可