当前位置:AIGC资讯 > 数据采集 > 正文

python爬虫文献综述_基于Python下的爬虫综述及应用

98 Internet Application 互联网 + 应用 引言:如今,大数据已经进入我们的各个领域,我们的工作及应用越来越需要获取大量的数据。我们可以想象在一张蜘蛛网上沿着我们所需的方向爬取猎物(数据)的感觉。实际上爬虫就是通过人为的模拟浏览器行为,获取站点的HTML 代码、JSON 数据以及其它相关内容到本地,保存以便日后自己使用。一、爬虫技术 1、爬虫简介。爬虫,应该称为网络爬虫,也叫网页蜘蛛、网络机器人、网络蚂蚁等。其实,搜索引擎,就是网络爬虫的应用者。但搜索引擎不能对所需网站及特定数据进行获取,因此,需要自己开发爬虫来解决问题。 2、爬虫分类。当前主要爬虫从大体上可分为聚焦爬虫和通用爬虫。通用爬虫常见的就是搜索引擎,无差别的收集数据、存储,提取关键字,构建索引库,给用户提供搜索接口。聚焦爬虫是指有针对性的编写特定领域数据的爬取程序,针对某些类别数据采集的爬虫,是面向主题的爬虫。 3、爬虫架构。爬虫架构分为 3 部分:(1)URL 资源管理器:存放已爬和未爬的 URL。(2)网页下载器:字符串格式的网页保存方式。(3)网页解释器:进行数据解析。 4、爬虫的一般流程:(1)初始一批 URL,将 URL 放在待爬取队列。(2)取出 URL,通过 DNS 解析 IP,对 IP 对应站点下载 HTML 页面,保存本地服务器,爬取完成后放 入已爬取队列。(3)分析网页,找出里面URL链接,重复(2)。 二、基础 Python 爬虫的分析 2.1Python 语言的优势 (1)简单方便上手,兼容性强,可在所有操作系统上运行,初学者能很好适应。(2)Python 其自身所带了很多例如urllib3等很方便爬虫的库,以及其完整的爬虫框架 Scrapy,使用者很方便上手。 2.2 Python 网络爬虫模块 1. urllib 包。Urllib 是标准库,它是一个工具包模块,包含以下模块来处理 URL:(1)urllib.request:用于打开和读写 URL;(2)urllib.error 包含了由 urllib.request 引起的异常; (3)urllib.parse 用于解析 URL;(4)urllib.robotparser 分析 基于 Python 下的爬虫综述及应用 □张誉曜 陈媛媛(通讯作者) 新疆师范大学计算机科学技术学院 【摘要】 本文对 Python 全栈爬虫技术进行阐述,包含了爬虫概念、流程和架构,并通过详细的代码展示体现出来,紧接着通过实例展现了 Python 爬虫的简洁性,望对学习者有所帮助。 【关键词】 Python 全栈爬虫 爬虫概念 应用 2017 年度新疆师范大学计算机科学学院数据安全重点实验室招标课题“网络空间命运共同体视域下我国智库网络影响力提升路径研究”,课题编号 : XJNUSYS102017B07。 通讯作者 : 陈媛媛 ( 1977— ) ,新疆师范大学计算机学院副研究馆员 robots.txt 文件。在 Python2 中提供了 urllib 和 urllib2,其中urllib 提供的是底层的接口,urllib2 对 urllib 进行了进一步的封装。但在 Python3 中将 urllib 合并到了 urllib2 中,并只提供了标准库 urllib 包。 2. request.urlopen 方法。通过 urllib.request.urlopen 方法,发起了一个 HTTP 的 GET 请求,WEB 服务器返回了网页内容。响应的数据被封装到类文件对象中,可以通过read方法、 readlin

更新时间 2023-11-08