当前位置:AIGC资讯 > 数据采集 > 正文

python爬虫实训心得_python爬虫的一些心得

爬虫用于从网上得到目标数据,根据需要对其予以利用,加以分析,得到想要的实验成果。现在讲一讲我这两天学到的东西。

第一,爬虫的算法结构,包括以下几个方面:

(1)读取网络数据

(2)将获取的数据解析为目标格式,进而筛选出想要的数据

(3)将有用数据存于本地数据库中

第二,具体实施方案

(1)读取网络数据,需要用到urllib和urllib2两个库,和需要爬取数据的资源定位符URL。

通过url,将网页所有数据

1 request =urllib2.request(url)2 response =urllib2.response(request)3 html = response.read()

关于url的动态变化

1 url="http://wsbs.bjepb.gov.cn/air2008/Air1.aspx?time="

2 i=03 for tim in range(1364774400,1365206400,86400):4 i=i+1

5 if(i%180==0):6 time.sleep(15)7 ltime=time.localtime(tim)8 timeStr=time.strftime("%Y-%m-%d", ltime)9 url="http://wsbs.bjepb.gov.cn/air2008/Air1.aspx?time="

10 url=url+timeStr11 print url

(2)利用BeautifulSoup将获取的数据解析为目标格式&#x

更新时间 2023-11-08