前言:
接触了python这门语言后,我发现了它许多的优点以及便利的地方。最近想通过python来做一些数据获取以及数据处理,所以就开始学起了python爬虫。用requests库来爬取一个网页是非常简单的,短短几行代码就可以实现,但是也考虑到了爬虫的合法性,我觉得在这方面有必要强调并且提醒大家。
这时可能有人就会说了,爬虫不就是要爬一些不可告人的秘密才有价值吗?这么想的小伙伴,你们就要小心了,网络世界不是法外之地,如果爬取到一些不该爬取的用户信息或者一些关键的数据,被爬取方可能会将你告上法庭。如果贩卖关键数据给他人,网络警察也会将你们捉拿归案。
所以在这里强调,爬虫的作用是对可被爬取的数据进行大量收集并进行数据分析的工具,不是让大家扮演hacker去攻击人家服务器和偷取重要信息的。还望周知?
正文:
爬虫简单来说,就是把自己包装成用户发送请求给对方服务器用来获取对方服务器所返回的数据的。在国外,爬虫是有很明确的规定来规范它的,甚至用都不给用,但是在我们国内,是可以用作个人研究的,也就是可以将爬虫的数据用作个人研究,不过如果涉及到一些著作权问题是要另外声明的。
有很多小伙伴都想成为一名爬虫工程师,觉得当一名爬虫工程师很酷,能通过包装自己来骗过服务器从而获取到数据从而实现数据的收集。是的,这么看上去确实很不错。但是,我并不是很看好爬虫工程师这份职业,并不是不认可工程师,而是不认可将爬虫作为自己的事业。
首先,爬虫工程师这份工作的要求并不高,天花板也是显而易见的,他不是创新的去实现一些东西,更多的是爬取他人的数据来实现个人的价值。无论你再怎么进化,再怎么学习,不允许被爬取的数据,就是不被允许的,你始终突破不了这道门槛,因为如果破了这个戒,那你只能做好进监狱的准备。当然也存在技术十分高超的选手,但他们每天都得小心翼翼地活着。
能够做一个爬虫高级工程师和简单的爬虫工程师之间是断层的,有些东西不是能通过一点点学习学上来的,这两者之间存在巨大的沟壑,要突破这个瓶颈也并不简单,可能大部分时间你做的都只是爬取数据,而不是去开发一个搜索引擎。
然而现在国家网络安全这方面也是越来越重视,在这个大数据的时代,我们的数据安全是很重要的。在法律的规格下,爬虫工程师只能慎之又慎,能做的越来越少,最后这份职业存在的合理性将可能荡然无存。
总结:
所以如果现在正在学习爬虫的小伙伴,目的是为了成为一名爬虫工程师的话,我希望我的这篇文章,我的一些观点,能引发你们的一些思考,以及方向的转变,如果坚持要成为爬虫工程师的话无可厚非,因为这仅是个人观点,我无权干涉你们的决定。当然如果没想好要在这条路上走下去的小伙伴,建议爬虫还是作为一个帮助自己学习的一个辅助工具来进行使用。
如果认为我的观点不太正确或者不太充分的小伙伴,欢迎在下方评论!我也可以了解一些你们的想法和观念,我们可以对这个进行更深层次的探讨?!