爬虫用于从网上得到目标数据,根据需要对其予以利用,加以分析,得到想要的实验成果。现在讲一讲我这两天学到的东西。
第一,爬虫的算法结构,包括以下几个方面:
(1)读取网络数据
(2)将获取的数据解析为目标格式,进而筛选出想要的数据
(3)将有用数据存于本地数据库中
第二,具体实施方案
(1)读取网络数据,需要用到urllib和urllib2两个库,和需要爬取数据的资源定位符URL。
通过url,将网页所有数据
1 request =urllib2.request(url)2 response =urllib2.response(request)3 html = response.read()
关于url的动态变化
1 url="http://wsbs.bjepb.gov.cn/air2008/Air1.aspx?time="
2 i=03 for tim in range(1364774400,1365206400,86400):4 i=i+1
5 if(i%180==0):6 time.sleep(15)7 ltime=time.localtime(tim)8 timeStr=time.strftime("%Y-%m-%d", ltime)9 url="http://wsbs.bjepb.gov.cn/air2008/Air1.aspx?time="
10 url=url+timeStr11 print url
(2)利用BeautifulSoup将获取的数据解析为目标格式&#x