爬虫（etree+xpath）

用简单的方法实现自己的目的我觉得这个方法就是比较好的方法。

这个案列是最简单的，需要自己补充的内容：xpath元素定位（参考：xpath元素定位常用的5种方法（相对路径）_adorable_的博客-CSDN博客_xpath相对路径定位）浏览器开发工具（参考：浏览器开发者工具基本使用教程_bill_live的博客-CSDN博客）

爬虫：1 首先确认先找到自己将爬取的网页链接（比如我们的目标网页是电影天堂电影天堂_电影下载_高清首发）

2 打开网址

3 在目标网页上找到自己想爬取的内容（比如我们先简单爬取电影种类，此处我们得打开浏览器开发工具 --F12，顺带查看下encoding（后面有用））

import requests
from lxml import etree

#获取地址（目标地址）
# https://www.dy2018.com/

#获取网页
sum_http = 'https://www.dy2018.com/'
response = requests.get(sum_http)
response.encoding = 'UTF-8'
html = etree.HTML(response.content, parser=etree.HTMLParser(encoding='gbk'))
dayli_http = html.xpath("//div[@class='contain']")[0]
print(dayli_http)
#从获取到的网页中找到自己想要的东西 比如电影类型
li = dayli_http.xpath("//div[@class='contain']//div[@class='contain']/ul/li/a/text()")
#查看 li 的类型
print(type(li))
#查看 li的长度或者也可以叫做大小
print(len(li))
#输出
print(li)