当前位置:AIGC资讯 > AIGC > 正文

防止内容被抓取训练AI:百度百科屏蔽谷歌/必应等搜索引擎

快科技8月22日消息,据报道,近日百度百科开始屏蔽谷歌和必应等大多数搜索引擎,预计是为了阻止这些搜索引擎和其他爬虫,未经授权抓取百度百科的内容用于训练AI。

百度百科的robots.txt文件显示,目前仅有百度搜索、搜狗搜索、中国搜索(Chinaso)、YYSpider和宜搜搜索(EasouSpider)等少数几个搜索引擎被允许抓取其内容。

谷歌搜索、必应搜索、微软MSN、UC浏览器的Yisouspider以及其他一切搜索引擎爬虫均被明确禁止抓取百度百科的内容。

虽然360搜索没有在封禁列表中单独列出,但百度百科的策略是禁止一切非白名单爬虫抓取,所以360搜索和其他搜索引擎也都是被屏蔽的。

不过百度百科这种做法其实也只是防君子不防小人,肯定还有很多爬虫通过各种方式继续抓取内容然后拿去训练AI。

总结

**百度百科屏蔽多数搜索引擎以保护内容**
近日,快科技报道指出,百度百科已采取行动,通过修改其robots.txt文件,屏蔽了包括谷歌、必应在内的多数搜索引擎及爬虫,以阻止这些平台未经授权抓取其内容用于AI训练。目前,仅有百度搜索、搜狗搜索、中国搜索(Chinaso)、YYSpider和宜搜搜索(EasouSpider)等少数几个搜索引擎被允许访问和抓取百度百科的内容。
此举意味着,谷歌搜索、必应搜索、微软MSN、UC浏览器的Yisouspider等搜索引擎及其爬虫均已被明确禁止访问百度百科的内容。尽管360搜索并未在封禁列表中单独提及,但由于百度百科采取了非白名单爬虫全面禁止的策略,360搜索同样无法抓取其内容。
然而,有分析指出,百度百科的这种做法虽然能在一定程度上减少未经授权的内容抓取,但并不能完全杜绝。技术高超的爬虫仍可能通过各种手段绕过限制,继续抓取内容用于AI训练。因此,这种做法更多是一种防御措施,旨在提高内容被非法使用的门槛。

更新时间 2024-08-22