当前位置:AIGC资讯 > 数据采集 > 正文

爬取链家租房数据

 使用requests+lxml结合爬取的链家租房信息数据,翻页我直接使用循环去访问的,链接翻页的改变就是相对应的'pg1'。

主要使用xpath匹配了房源名称、房源大小、地点、价格等字段信息,获取各个字段之后连接了我的本地数据库,然后一条一条从插入数据库。

数据库的连接得填好自己想要存进去的数据库账号。

就这些了,有不懂的欢迎评论,下面附上代码:

import requests
from lxml import etree
import pymysql
import time

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.84 Safari/537.36',
}

def parse_lianjia_data(url):

    data = requests.get(url,headers=headers)
    response = etree.HTML(data.content)

    length = response.xpath("//ul[@id='house-lst']/li")
    print(len(length))
    for i in range(len(length)):
        print("=========================")
        print(url)
        item = {}

        try:
            house_name = response.xpath("//li[@data-index='"+str(i)+"']//h2//text()")
            print(house_name)
            item['house_name'] = ''.join(house_name).strip()

            house_size = response.xpath("//li

更新时间 2024-07-26