举个例子,假设你想要买一只猫咪,于是你打开了类似58同城的同城网站,先点开宠物分类-猫,再选择一些条目,比如你想要的品种是蓝猫、价格在2000元到2500元、地区需要在浦东,最后网站就会给出一些筛选完的具体列表,通过一步步的点击最后获得了你想要的信息,如果想将这些信息进行对比,还得手动将一些参考数据摘抄下来,这一系列复杂的人工操作必将花费不少的时间。
但如果利用爬虫来收集这些数据,你只需要设定好主题和目标,比如[猫]、[蓝猫]、[2000元-2500元]、[浦东]等标签,爬虫就会从某个特定URL入手,自动的访问它所关联的URL,并且提取出你需要的数据。简单来说,爬虫就是自动访问互联网,并且提取价值数据的程序。
复杂点说:
爬虫是一段自动抓取互联网信息的程序。每个网页都有一个URL,从一个网页入口开始,通过各种URL的跳转形成一个相互指向的关系,最终可以形成一种网状结构,这就是互联网。理论上来说,一个庞大的网页项目,从入口开始,总能通过某种跳转路径到达项目系统中的任何一个网页,当我们人工的从网页上获取信息的时候,只能跟着步骤,一步一步的点击跳转,最终获取到我们希望得到的信息。
那零基础该如何学习爬虫呢?
想爬虫首先得有工具,用啥工具?当然是Python
当然,如果你使用和鲸K-Lab,请直接跳过以下Python的安装步骤。
安装Python:很多人会推荐 Anaconda(400M以上),但实际上原版 Python(26M)对新手来说就足够了,
直接进入Python官网进行下载即可,电脑系统不同具体安装方式也不一样。
Mac安装Python指南:Python学习:mac电脑安装python
Windows安装Python指南:可能是全网最详细的 Python 安装教程(windows)
Linux安装Python指南:如何在 Linux 上安装 Python | Linux 中
安装编辑器:目前主流的Python编辑器或者IDE有PyCharm、Jupyter Notebook、Spyder、Redeo等,每一种编辑器都有其优劣,这里有一份回答对Python编辑器进行了较为详细的介绍:世界上最好的Python编辑器是什么?
相比之下,Pycharm还是比较受欢迎,下载链接:https://www.jetbrains.com/pycharm/download/#section=windows,对新手而言,下载cummunity版本足够用了。下载完毕之后,根据提示一步一步安装就好。
如果你真的不会安装…请移步→:我连Python怎么安装都不会,能自学吗?
(歪个楼,插一段硬广~)
和鲸K-Lab无需安装,开箱即用,你值得拥有!
和鲸K-Lab是基于Jupyter Notebook研发的一款数据分析及AI开发协同工具,可直接在线运行,无需下载软件,这一点对初学者而言非常友好。K-Lab 目前可使用的主要为 Python 或 R 语言,同样含有各类工具包,如 Matplotlib、Seaborn 和 Pandas等等。
有了工具(Python),就该开始学习怎么使用了
应该有不少知友在学习爬虫的过程中都走了不少弯路,一听到要用Python爬虫,就认为开始着手把Python完全系统的去学习一遍,于是开启了漫长的Python学习时光,但往往还没有接触到爬虫,就把前面学的理论知识给忘了,毫无成就感,越来越看不到希望,最后只好放弃。
其实在了解Python的基本数据结构之后,就可以去试试怎么玩爬虫,通过fork别人的案例来了解爬虫的原理、操作方法、以及一些固定的语句,下面有一些适用于初学者学习的案例:
1小时入门Python爬虫 爬虫简单讲解以及如何实现一个简单爬虫 爬虫学习之爬取星座运势,拯救不开心当然爬虫的过程很多时候都是不太顺利的。
比如你会发现自己的请求根本不会返回任何信息,那是因为你的爬虫被网站的反爬机制“盯”上了,所以就需要为它穿上一件headers衣服,伪装成真实用户。(终于知道别人的代码案例中的headers 信息是干啥的了…)当然这还是最基本的,更严格的IP限制、验证码、文字加密等等。
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64;
x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103
Safari/537.36"
}
爬虫过程这些问题可以通过fork别人的案例慢慢发现并解决,对症下药,效果永远最好
学好 Python 不论是就业还是做副业赚钱都不错,但要学会 Python 还是要有一个学习规划。最后大家分享一份全套的 Python 学习资料,给那些想学习 Python 的小伙伴们一点帮助!
如果需要可以点击链接免费领取或者滑到最后扫描二v码
?[CSDN大礼包:《python学习路线&全套学习资料》免费分享](安全链接,放心点击)
?Python学习大纲?
Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
?Python实战案例?
光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
温馨提示:篇幅有限,已打包文件夹,获取方式在:文末
?Python面试刷题?
?Python副业兼职路线?
这份完整版的Python全套学习资料已经上传CSDN,朋友们如果需要可以点击链接免费领取或者扫描二v码免费领取【保证100%免费
】
?[CSDN大礼包:《python学习路线&全套学习资料》免费分享](安全链接,放心点击)