爬虫到底合不合法？

文章目录

前言一、爬虫爬虫产生的背景爬虫是什么？二、Robots协议定义位置查看方式三、具体案例分析爬虫行为反爬措施爬取内容四、爬虫涉及到的相关法律规定非法获取计算机系统数据罪侵犯商业秘密罪非法侵入计算机信息系统罪侵犯公民个人信息罪侵犯著作权罪五、总结

前言

作为一个爬虫萌新，老师在第一节课就告诉大家要注意爬虫的界限和法律规范，让大家不要因为爬虫而锒铛入狱。原来程序员不仅面临秃发威胁，一不小心还会步入万丈深渊。
近年来，我们总是能在各种各样的新闻里看到程序员因为爬虫程序而被抓的新闻。程序员聚集的论坛里也总是能看从入门到入狱的教程，程序员们也经常自己调侃自己再干下去就要入狱了。
虽然里面的人个个都是人才，说话又好听，但是谁也不愿意大好青春在铁窗里度过。虽然我们还处在爬虫萌新阶段，没有能让我们锒铛入狱的水平。但是在学习爬虫之前，我们还是有必要了解爬虫的一些规范和职业道德，来规避风险。（万一以后成大佬了呢）

首先我们有必要先来了解一下什么是爬虫？

一、爬虫

爬虫产生的背景

随着网络的迅速发展，万维网成为大量信息的载体，如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎（Search Engine），例如传统的通用搜索引擎AltaVista，Yahoo!和Google等，作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是，这些通用性搜索引擎也存在着一定的局限性
为了解决这些问题，定向抓取相关网页资源的聚焦爬虫应运而生。聚焦爬虫是一个自动下载网页的程序，它根据既定的抓取目标，有选择的访问万维网上的网页与相关的链接，获取所需要的信息。与通用爬虫（general purpose web crawler）不同，聚焦爬虫并不追求大的覆盖，而将目标定为抓取与某一特定主题内容相关的网页，为面向主题的用户查询准备数据资源。（来自百度百科）

爬虫是什么？

网络爬虫（又称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

技术本身是中立性的，技术开发出来是为了让大家使用更便捷。爬虫作为一种计算机技术就决定了它的中立性，因此爬虫本身在法律上并不被禁止，但是利用爬虫技术获取数据这一行为是具有违法甚至是犯罪的风险的。所以具体问题具体分析，要看是否违法，就要看人们如何利用爬虫了。

作为一个和爬虫打交道的程序员，一定都会接触到robots协议，那么什么是robots协议呢？

二、Robots协议

定义

Robots 协议是互联网爬虫的一项公认的道德规范，全称是“网络爬虫排除标准（Robots exclusion protocol）”，这个协议用来告诉通用型爬虫，哪些页面是可以抓取的，哪些不可以。

位置

它的位置就在网站根目录下的robots.txt文件中。

查看方式

大多数网站都有 Robots 协议，那如何查看网站的 Robots 协议呢？
可以在网站的根目录域名后加上/robots.txt。
例如：https://www.douban.com/robots.txt，这个链接可以查看豆瓣的 Robots 协议。

这其中：
*代表所有，/代表根目录
User-agent：指定对哪些爬虫生效（这里关于爬虫的User-agent查相关搜索引擎的资料可以得到官方的数据）
Allow 代表允许访问，Disallow 就是禁止访问

常见的搜索引擎爬虫有：
谷歌 Googlebot
百度 Baiduspider
360 360Spider
必应 bingbot
搜狗综合爬虫Sogou spider

关于robots协议的具体内容可以查看CSDN上大佬的总结。
robots协议详解

关于robots协议有一个比较著名的案例就是百度诉奇虎违反Robots协议案。案件具体经过和审判结果可以查看：百度诉奇虎360违反Robots协议案一审宣判 360赔偿百度70万元

爬取数据操作分为爬取的行为和爬取获得的数据两方面，在这里我们将结合具体案例分别论述。

三、具体案例分析

爬虫行为

如果大量的爬虫在同一时间对网站进行访问，很容易导致网站服务器过载或崩溃，造成网站经营者的损失。开发者使用爬虫技术，如果请求频率过高，一旦造成目标服务器瘫痪或不能访问，这个就不是爬虫行为，而是黑客行为，必定要承担相应的责任。

反爬措施

由于爬虫会批量访问网站，因此许多网站会采取反爬措施。
例如：
1.IP频率、流量限制；
2.Ajax动态加载；
3.识别爬虫；
4.验证码或模拟登陆等。
但这些手段都无法阻止爬虫开发人员用各种各样的方式来规避反爬措施，实现大批量的数据抓取。但是如果开发者强行突破以上这些措施，同样会被界定为黑客行为。

爬取内容

爬取的内容同样有严格的限制，以下几种属于不应该爬取的内容：
1、爬取公民个人信息谋利
2015年6月，张某某为了谋取私利委托他人针对某网站漏洞编制批量扒取数据的恶意程序，在未经网站授权的情况下，进入该网站后台管理系统，从中非法获取客户订单信息12503条，通过QQ等联络方法将上述客户信息分数次卖给被告人姚某某，获利人民币5359元。被告人姚某某购得上述订单信息后，又在网络上分别加价倒卖从中牟利。
侵犯公民个人信息
2、爬取知识产权数据
大众点评网起诉爱帮网大量复制大众点评网上的商户简介和用户点评内容，侵犯了其著作权。最后，法院认定爱帮公司侵犯了汉涛公司的著作权，判令停止侵权、赔偿25000元。
大众点评起诉爱帮网
3、爬取商业数据
武汉元光科技有限公司为了提高其开发的智能公交应用程序“车来了”的市场份额及信息查询的准确度，指使公司员工利用网络爬虫技术大量获取竞争对手深圳市谷米科技有限公司经营的同类公交应用程序“酷米客”的实时公交信息数据，无偿使用于其“车来了”应用程序，并向公众提供查询服务。最后判决被告元光公司向原告谷米公司赔偿经济损失及合理维权费用 50 万元。
深圳市谷米科技有限公司与武汉元光科技有限公司等不正当竞争纠纷

四、爬虫涉及到的相关法律规定

其实关于爬虫的合法性规范问题在很早以前就被程序员们关注了，在GitHub 里就有一个爬虫库，这个库整理了所有中国大陆爬虫开发者涉诉与违规相关的新闻、资料与法律法规。
https://github.com/HiddenStrawberry/Crawler_Illegal_Cases_In_China

以“爬虫”为关键字在中国裁判文书网进行检索，其中四分之三的案件集中在民事领域，刑事案件和行政案件占比四分之一。民事案由主要为“知识产权与竞争纠纷”，而刑事案由主要为刑法第二百五十三条之一规定的“侵犯公民个人信息罪”和第二百八十五条、二百八十六条规定的计算机网络犯罪。

国家很早就发现了爬虫可能存在的问题。在2019年05月28日国家网信办发布的《数据安全管理办法（征求意见稿）》中，拟通过行政法规的形式，对爬虫的使用进行限制。其中就提到了数据收集的规则、数据的使用处理、数据安全监督管理等方面的内容。
如果爬虫行为不当或者爬取内容不当，可能涉及到一下法律风险。

非法获取计算机系统数据罪

根据《中华人民共和国刑法》第二百八十五条规定，非法获取计算机信息系统数据、非法控制计算机信息系统罪，是指违反国家规定，侵入国家事务、国防建设、尖端科学技术领域以外的计算机信息系统或者采用其他技术手段，获取该计算机信息系统中存储、处理或者传输的数据，情节严重的行为。刑法第285条第2款明确规定，犯本罪的，处三年以下有期徒刑或者拘役，并处或者单处罚金；情节特别严重的，处三年以上七年以下有期徒刑，并处罚金。

侵犯商业秘密罪

第二百一十九条规定，侵犯商业秘密罪是指，有下列侵犯商业秘密行为之一，情节严重的，处三年以下有期徒刑，并处或者单处罚金；情节特别严重的，处三年以上十年以下有期徒刑，并处罚金：
（一）以盗窃、贿赂、欺诈、胁迫、电子侵入或者其他不正当手段获取权利人的商业秘密的；
（二）披露、使用或者允许他人使用以前项手段获取的权利人的商业秘密的；

非法侵入计算机信息系统罪

非法侵入计算机信息系统罪,是指自然人或者单位违反国家规定,侵入国家事务国防建设、尖端科学技术领域的计算机信息系统的行为。
违反国家规定，侵入前款规定以外的计算机信息系统或者采用其他技术手段，获取该计算机信息系统中存储、处理或者传输的数据，或者对该计算机信息系统实施非法控制，情节严重的，处三年以下有期徒刑或者拘役，并处或者单处罚金;情节特别严重的，处三年以上七年以下有期徒刑，并处罚金。
提供专门用于侵入、非法控制计算机信息系统的程序、工具，或者明知他人实施侵入、非法控制计算机信息系统的违法犯罪行为而为其提供程序、工具，情节严重的，依照前款的规定处罚。

侵犯公民个人信息罪

第二百五十三条之一　【侵犯公民个人信息罪】违反国家有关规定，向他人出售或者提供公民个人信息，情节严重的，处三年以下有期徒刑或者拘役，并处或者单处罚金;情节特别严重的，处三年以上七年以下有期徒刑，并处罚金。
违反国家有关规定，将在履行职责或者提供服务过程中获得的公民个人信息，出售或者提供给他人的，依照前款的规定从重处罚。
窃取或者以其他方法非法获取公民个人信息的，依照第一款的规定处罚。
单位犯前三款罪的，对单位判处罚金，并对其直接负责的主管人员和其他直接责任人员，依照各该款的规定处罚。

侵犯著作权罪

根据《中华人民共和国刑法》第二百一十七条规定，侵犯著作权罪，是指以营利为目的，未经著作权人许可复制发行其文字、音像、计算机软件等作品，出版他人享有独占出版权的图书，未经制作者许可复制发行其制作的音像制品，制作、展览假冒他人署名的美术作品，违法所得数额较大或者有其他严重情节的行为。

五、总结

所以对于广大程序员来说，如何避免爬虫所带来的法律风险？（重点！！！）
1.严格遵守网站设置的robots协议，爬取网站允许爬取的数据（公开数据）；
2.在规避反爬虫措施的同时，尽量避免干扰被访问网站的正常运行；
3.在抓取图片、音乐等可能拥有著作权的数据时应该谨慎；
4.严格审查所抓取的内容，如发现有属于用户的个人信息、隐私或者他人的商业秘密的内容，应及时停止并删除；
5.对于网站的明显反爬措施不能强行突破，否则属于黑客行为。

参考链接：
[1]中国爬虫违法违规案例汇总！
[2]你的爬虫会送你进监狱吗？
[3]程序人生 - 一文告诉你，爬虫技术到底违不违法，怎么用才合法？
[4]网络爬虫？你可能面临的法律责任