简单解释一下上面的代码: 1、使用requests下载百度新闻首页; 2、先用正则表达式提取a标签的href属性,也就是网页中的链接;然后找出新闻的链接,方法是:假定非百度的外链都是新闻链接; 3、逐个下载找到的所有新闻链接并保存到数据库;保存到数据库的函数暂时用打印相关信息代替。 4、每隔300秒重复1-3步,以抓取更新的新闻。 以上代码能工作,但也仅仅是能工作,槽点多得也不是一点半点,那就让我们一起边吐槽边完善这个爬虫吧。 数据库正则表达式url