当前位置:AIGC资讯 > 数据采集 > 正文

数据采集笔记(八爪鱼)-task1

八爪鱼学习

1.github与gitee的基础使用 1.1 概念 1.2 github使用 2.使用八爪鱼初体会 3. 问题思考回答

1.github与gitee的基础使用

在学习过程中,由于用到了github,故对github的几个基本操作进行了学习。

1.1 概念

概念分析区别:

git::一个开源的分布式版本控制系统,可以有效、高速地处理从很小到非常大的项目版本管理。 github:基于git版本管理软件而打造的网站,程序员在里面进性交流,代码托管和研发协作。 gitee:基于 Git 的代码托管和研发协作平台,相当于中文版的github网站。

1.2 github使用

对于大部分人,使用github的主要目的是找资源,那么找资源的途径有:资源搜索,资源查看和保存。

资源查找
注册好了一个github账户之后,查找好的项目有两条途径1
1)找开源项目的一些途径
• https://github.com/trending/
• https://github.com/521xueweihan/HelloGitHub
• https://github.com/ruanyf/weekly
• https://www.zhihu.com/column/mm-fe
2)特殊的查找资源小技巧-常用前缀后缀
• 找百科大全 awesome xxx
• 找例子 xxx sample
• 找空项目架子 xxx starter / xxx boilerplate
• 找教程 xxx tutorial

资源查看
找到一个项目后,主要看四个地方

项目名字:左上角的项目名字,看看主体内容是否是需要查找的 星标:首先是右上角的星标,如果星星比较多,说明是最近比较热门的项目 readme文件:项目列表下方有一个readme文件,里面主要是说明了项目的内容介绍,这在确定一个项目是否是你所需要的尤为重要。

资源使用和保存
当找到了资源之后,如何使用其中的代码又是关键,这里,有三种方法

直接在github上打开项目文件 把这整个项目下载下来:点击绿色的按钮code,里面有一个Download ZIP ,可以把整个项目下载下来 复制到gitee中查看下载:由于github是一个国外的网站,平时打开可能不是太方便,可以注册一个gitee账户,然后通过绿色的按钮code中项目的URL码,把github中的项目转存到gitee中,也方便下载查看。

2.使用八爪鱼初体会

通过短短的几个步骤,就能够把36氪中页面的信息爬取下来,操作非常简便。

3. 问题思考回答

1.体验了八爪鱼采集后,你觉得它能够用在学习和工作中的哪些方面?、
对一些网页上面的小规模数据,能够通过这个软件进行爬取。
2.推测一下,你觉得八爪鱼的工作原理是什么?
通过设置一些流程,软件模拟认为操作(打开网页,输入关键词搜索,复制筛选所得到的页面中的信息),然后进行循环操作,把得到的信息归整到一个文件中去。
3.和python爬虫相比,八爪鱼的优势和劣势是什么?
优势:无代码进行数据的采集,能够进行小规模的数据采集,操作简单方便
劣势:不能够对大规模数据进行采集,还有就是功能有限,不能够进行更加精细的数据采集操作。

https://www.bilibili.com/video/BV1e541137Tc ↩︎

更新时间 2023-11-08