python爬虫实训心得_python爬虫的一些心得

爬虫用于从网上得到目标数据，根据需要对其予以利用，加以分析，得到想要的实验成果。现在讲一讲我这两天学到的东西。

第一，爬虫的算法结构，包括以下几个方面：

（1）读取网络数据

（2）将获取的数据解析为目标格式，进而筛选出想要的数据

（3）将有用数据存于本地数据库中

第二，具体实施方案

（1）读取网络数据，需要用到urllib和urllib2两个库，和需要爬取数据的资源定位符URL。

通过url，将网页所有数据

1 request =urllib2.request(url)2 response =urllib2.response(request)3 html = response.read()

关于url的动态变化

1 url="http://wsbs.bjepb.gov.cn/air2008/Air1.aspx?time="

2 i=03 for tim in range(1364774400,1365206400,86400):4 i=i+1

5 if(i%180==0):6 time.sleep(15)7 ltime=time.localtime(tim)8 timeStr=time.strftime("%Y-%m-%d", ltime)9 url="http://wsbs.bjepb.gov.cn/air2008/Air1.aspx?time="

10 url=url+timeStr11 print url

（2）利用BeautifulSoup将获取的数据解析为目标格式&#x