使用requests+lxml结合爬取的链家租房信息数据,翻页我直接使用循环去访问的,链接翻页的改变就是相对应的'pg1'。
主要使用xpath匹配了房源名称、房源大小、地点、价格等字段信息,获取各个字段之后连接了我的本地数据库,然后一条一条从插入数据库。
数据库的连接得填好自己想要存进去的数据库账号。
就这些了,有不懂的欢迎评论,下面附上代码:
import requests
from lxml import etree
import pymysql
import time
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.84 Safari/537.36',
}
def parse_lianjia_data(url):
data = requests.get(url,headers=headers)
response = etree.HTML(data.content)
length = response.xpath("//ul[@id='house-lst']/li")
print(len(length))
for i in range(len(length)):
print("=========================")
print(url)
item = {}
try:
house_name = response.xpath("//li[@data-index='"+str(i)+"']//h2//text()")
print(house_name)
item['house_name'] = ''.join(house_name).strip()
house_size = response.xpath("//li