导读:此文是一篇爬虫网络论文范文,为你的毕业论文提供有价值的参考。
(1张家口学院网络信息中心,河北张家口075000;
2张家口学院理学系,河北张家口075000)
[摘 要]网络爬虫是搜索引擎和网站常用的搜索技术,它在为用户提高高效便利的搜索服务的同时也产生了大量的网络流量,这些大量的网络流量既占用了网络资源,又对网站性能产生了负面影响.对于内容驱动型网站而言,网络爬虫的造访是无法避免的,但可以通过分析网络爬虫的特点进而采取相应的应对措施.
[关键词]网络爬虫;User-Agent;网络策略
[DOI]1013939/jcnkizgsc201623077
1引言
随着科技的发展,大众正面临着一种信息爆炸的局面.在巨量数据面前,大众面临着一种尴尬局面,那就是互联网中有大量的对自己有用的数据,但是怎样能正确和便捷的获取到这些数据存在着困难.搜索引擎的出现很好地解决了这种局面,让大众通过搜索引擎搜索自己想要的数据.在互联网的搜索引擎和网站中,目前最常用的是网络爬虫技术.任何事物都有正反两个面,网络爬虫的出现也印证了这个说法.网络爬虫在给人们提供搜索便利的同时也占用了大量的网络带宽,很多网站的访问流量构成当中,爬虫带来的流量要远远超过真实用户访问流量,甚至爬虫流量要高出真实流量一个数量级,因此应对网络爬虫是一个值得网站开发者长期探索和解决的问题.
2网络爬虫概述
网络爬虫也被称为网络机器人,是一种能够“自动化浏览网络” 的程序,通过它可以在互联网上自动抓取内容.它们被广泛用于互联网搜索引擎或其他类似网站,以获取或更新这些网站的内容和检索方式.它们可以自动采集所有其能够访问到的页面内容,以供搜索引擎做进一步处理(分检整理下载的页面),而使得用户能更快的检索到他们需要的信息.早期的爬虫主要功能是索引网站中的文本内容,随着技术的发展,爬虫的功能也越来越强,例如对图片、视屏与内容的关联,对各种数据格式(如doc、xls、pdf)的解析等.
有关分析数据显示,网站流量中有高达60%可能是由网络爬虫产生的,而这些爬虫则是由用户或其他程序控制,并可能模拟人类的Web访问行为.几乎