基于python爬虫的论文的开题报告_基于python的新闻网站网络爬虫设计与实现开题报告...

1.研究背景及其意义

互联网从发展到至今，已经深入到人们的日常生活中，并且不论老人还是小孩，多少都会接触到互联网。在这个越来越信息化的社会，互联网上的信息量更是爆炸式的增长，但是在如此巨大的信息量中，我们想要找到我们需要的价值信息就非常困难了。国内国外包含了很多搜索引擎，类似有搜狗，百度，360等等，我们如何有效的寻找具有价值的信息？网络爬虫应运而生，它可以帮助我们在繁琐的信息网中爬取出关键信息，而且可以一次性的爬取出来，省去了人力搜索。

网络爬虫技术发展至今，已经具有非常的成熟的技术架构，我们可以用它爬取我们需要的数据，并且存储在我们的数据库。例如如果我们需要爬取大量银行数据利率做数据分析时，我们不可能去每个网站去做手动统计，这样会消耗我们大量人力和时间，非常浪费资源，爬虫可以做到快速且一次性提取中一个网站中我们所需要的数据。现在不仅仅是个人需要互联网上的信息，大部分企业都会去网络上爬取公司需要的数据，甚至有的公司会专门设置一个爬虫工程师的岗位。这些充分说明了网络爬虫已经步入人们日常生活中，并且网络爬虫会有一个开阔的发展前景和魅力。

2.国内外研究现状

不管国内国外，爬虫现在的地位越来越稳固，且不可动摇，对爬虫领域的潜心研究，不管是国内，还是国外，从爬虫诞生的那一刻起，就没有停止过。据说爬虫的起源是为了统计服务器的个数。互联网发展到现在，国内国外都已经有大量引擎，

Google、百度、360等，都是采用网络爬虫原理设计的。

2020年的今天，市面上开源的主流爬虫框架有Scrapy、Nutch等，

互联网网络爬虫搜索引擎数据分析数据库工程师 google 服务器关键信息 rap url