当前位置:AIGC资讯 > 数据采集 > 正文

论Python爬虫是否合法(一定要看看)

网络爬虫作为一种计算机技术就决定了它的中立性,爬虫本身在法律上并不被禁止,但是如果有一些别有用心的人,去使用爬虫做一些违法的事情,那就违法了。爬虫本无罪,有罪的是贪得无厌、险恶的人心。正如水果刀本身在法律生并不被禁止,但你用来杀人,就等着坐牢吧!

尽管在过去 20 年间已经做出了诸多相关裁决,不过网络爬虫及其使用时法律所允许的内容仍然处于建设当中。如果被抓取的数据用于个人用途,且在合理使用版权法的情况下,通常没有问题。

但是,如果这些数据会被重新发布,并且抓取行为的攻击性过强导致网站宕机,或者其内容受版权保护,抓取行为违反了其服务条款的话,那么则有一些法律判例可以提及。

网络爬虫界有一句流行的话“爬虫玩的好,监狱进的早;爬虫爬得欢,监狱要坐穿;数据玩的溜,牢饭吃个够”,纵观国内外,不少因为网络爬虫引发的案件,两个公司之间打官司,公司员工被抓进去等等,这些案例不胜枚举。

国外案例

发生在美国一个起诉案件,在 F 公司 起诉 R 公司使用爬虫技术抓取了网站客户的联系方式,美国联邦最高法院裁定抓取并转载真实数据(比如电话清单)是允许的。在澳大利亚,发生的一类似案件中,则裁定只有拥有明确作者的数据,才可以受到版权的保护。

另一起发生于美国的美联社起诉融文集团的内容抓取案件中,则裁定对美联社新闻重新聚合为新产品的行为是侵犯版权的。此外,在欧盟发生的一个案件中,最终裁定定期抓取和深度链接是允许的。还有一些案件中,原告控告一些公司抓取强度过大,尝试通过法律手段停止其抓取行为。在 Q 公司 诉讼 W 公司的案件中,裁定除非抓取行为造成了私人财产损失,否则不能被认定为故意侵害,即使爬虫活动导致了部分站点的可用性问题。

这些案件告诉我们,当抓取的数据是现实生活中真实的公共数据(比如,营业地址、电话清单)时,在遵守合理的使用规则的情况下是允许转载的。但是,如果是原创数据(比如,意见和评论或用户隐私数据),通常就会受到版权限制,而不能转载。

无论如何,当你抓取某个网站的数据时,请记住自己是该网站的访客,应当约束自己的抓取行为,否则他们可能会封禁你的 IP,甚至采取更进一步的法律行动。这就要求下载请求的速度需要限定在一个合理值之内,并且还需要设定一个专属的用户代理来标识自己的爬虫。你还应该设法查看网站的服务条款,确保你所获取的数据不是私有或受版权保护的内容。如果你还有疑虑或问题,可以向媒体律师咨询你所在地区的相关判例。

国内案例

国内相关条文与国外存在许多不同,如果您使用爬虫技术窃取个人隐私信息,或者公司的商业机密信息等,则真的会面临牢狱之灾,同时使用爬虫技术攻击他人网站,造成他人网站宕机,从而引起财产受到损失的也会受到相应处罚。

2021 年10 月 15 日,北京市朝阳公安分局对外公开,按照公安部“净网 2021”专项行动整体部署,朝阳警方深入落实打击网络违法犯罪。

在市局网安总队等有关部门的支持下,经过半个多月的缜密侦查,将一个非法获取计算机信息系统数据的犯罪团伙一网打尽,抓获 23 名犯罪嫌疑人。据朝阳警方称,某购物网站工作人员近期报警,其网络购物“直播间”存在异常访问情况,怀疑直播数据被非法窃取。

经审讯,王某漪、杨某宁和杨某等人交代了他们利用“爬虫”软件非法获取网站数据,进行数据处理后倒卖获利 40 余万元的犯罪事实。据悉,王某漪等人此前曾合伙创业,但因经营不善没有赚到钱,心灰意冷之际,他们发现买卖购物网站上的客户信息可以赚大钱,于是便走上了这条违法犯罪的不归路。

2020 年 9 月份,河南商丘市睢阳区人民法院的一份刑事判决书,曝光了这起淘宝爬虫案件的细节,涉及11亿条用户个人信息,数量之大,让人大跌眼镜。淘宝公司报警称,有黑产通过mtop订单评价接口,绕过平台风控批量爬取加密数据,爬取字段量巨大,平均每天爬取数量 500万,爬取内容包括:买家用户昵称,用户评价内容,昵称等敏感字段。

警方将该案立为刑事案件。因涉嫌非法获取计算机信息系统数据、非法控制计算机信息系统罪,2020年8月15日,逯某被商丘市公安局新城分局刑事拘留,2020年9月22日被逮捕。6天后,也就是8月21日,因涉嫌侵犯公民个人信息罪,黎某被抓获,并于2020年8月22日被商丘市公安局新城分局刑事拘留,9月22日被逮捕。

最终,法院判定:被告人黎某犯侵犯公民个人信息罪,判处有期徒刑三年六个月,并处罚金人民币三十五万元;被告人逯某犯侵犯公民个人信息罪,判处有期徒刑三年三个月,并处罚金人民币十万元。

总结

通过上述案例,我们应该牢记一点,一定要遵守爬虫的使用规范、礼仪,切记不要做损害他人利益、抓取个人隐私的事情,否则真的要“牢底坐穿”。同时还要注意国内外对爬虫的限制存在不同,在国内要遵守网络安全法。

更新时间 2023-11-08