当前位置:AIGC资讯 > 数据采集 > 正文

爬虫(etree+xpath)

用简单的方法实现自己的目的我觉得这个方法就是比较好的方法。

这个案列是最简单的,需要自己补充的内容:xpath元素定位(参考:xpath元素定位常用的5种方法(相对路径)_adorable_的博客-CSDN博客_xpath相对路径定位)浏览器开发工具(参考:浏览器开发者工具基本使用教程_bill_live的博客-CSDN博客)

爬虫:1 首先确认先找到自己将爬取的网页链接(比如我们的目标网页是电影天堂 电影天堂_电影下载_高清首发 )

           2 打开网址

           3  在目标网页上找到自己想爬取的内容(比如我们先简单爬取电影种类,此处我们得打开浏览器开发工具 --F12,顺带查看下encoding(后面有用))

import requests
from lxml import etree

#获取地址(目标地址)
# https://www.dy2018.com/

#获取网页
sum_http = 'https://www.dy2018.com/'
response = requests.get(sum_http)
response.encoding = 'UTF-8'
html = etree.HTML(response.content, parser=etree.HTMLParser(encoding='gbk'))
dayli_http = html.xpath("//div[@class='contain']")[0]
print(dayli_http)
#从获取到的网页中找到自己想要的东西 比如电影类型
li = dayli_http.xpath("//div[@class='contain']//div[@class='contain']/ul/li/a/text()")
#查看 li 的类型
print(type(li))
#查看 li的长度或者也可以叫做大小
print(len(li))
#输出
print(li)

更新时间 2023-11-08