现在数据越来越重要,我一直研究这企业工商数据采集,今天分享一下北京市企业数据采集。
北京市市场主体(企业+个体)数据源
1、国家企业信用公示系统(北京)
http://bj.gsxt.gov.cn/index.html 这个就是国家的企业信用公示系统,只是一个二级域名,
2、北京市企业信用网
http://qyxy.scjgj.beijing.gov.cn/ 这个是北京市地方的企业信用网。
这两个都是官方平台,信息准确性和及时性都比较高,如果手上有企业名称,就可以通过这两个平台实现抓取。国家企业信用公示系统和北京市企业信用网都会出现验证码,其中北京市企业信用网比国家企业信用公示系简单得多,相对爬取容易的多,而且速度比较快。这里国家企业信用公示系统我就不多说,原来我也有文章提到过如果进行爬取,网上也有很多案例。
北京市企业信用网爬取:取得认证credit_ticket
网站在访问详情和搜索的时候都需要credit_ticket,比如:http://qyxy.scjgj.beijing.gov.cn/xycx/queryCreditAction!qyxq_view.dhtml?reg_bus_ent_id=963C371FC70D4F9EB4902485C640E3B2&credit_ticket=DBFD51834814DCBF5F24A91337D7C562 其中reg_bus_ent_id就是企业id,credit_ticket就是认证;
看他们的验证码是一个预算,当然自己去研究图片算法很难的,我们企业可以选择一些打码平台来识别,这样可以减轻我们开发的量。网上有很多打码平台都可以,我这里就不做广告了,如果需要可以资讯我。
我们可以看企业编号:reg_bus_ent_id=ff808081609c0a8c0160a140a4055cb3,是一个32位的序列号,所以我们还是无法取得最新更新企业数据,只有企业名称才能抓取。
当然我们也可以通过一些列表获取部分企业
纳税A级企业纳税人名单: http://qyxy.scjgj.beijing.gov.cn/xycx/queryCreditAction!gsmd_list.dhtml?flag=G&chr_id=6886F83743DB00A4E053f400000501A4
北京市诚信创建企业复审公告名单:http://qyxy.scjgj.beijing.gov.cn/xycx/queryCreditAction!gsmd_list.dhtml?chr_id=6886F83743DB00A4E053f400000500A4&flag=G&clear=true
北京市诚信创建企业终审公示名单:http://qyxy.scjgj.beijing.gov.cn/xycx/queryCreditAction!gsmd_list.dhtml?chr_id=6886F83743DB00A4E053D400000500A4&flag=G&clear=true
……这里我就不一一列举,我们可以得到一些我们需要的企业,但是要得到北京市 万企业还是有点困难。
3、通过数据接口
比如天眼查,企查查等都可以通过地区查询条件,不过都是按照接口调用次数收费。要想得的全市的数据成本还是有点高。也有专门的接口提供最新的,比如企查猫等,还有准们只提供最新企业注册的接口:https://www.tngou.net/doc/show/2 最新工商注册数据接口:
案例:https://www.tngou.net/openapi/v1/comp/complist?api_id=1&ProvinceCode=11&Type=1&sign=03a372539b83c0a0ee14e1639d7308c5&ssl=on
就可以取到相关城市最新和更新的企业数据。
这里只说了一下方式和思路,如果需要相关的代码和数据,可以联系作者(QQ:397713472 电话:13880334484[微信同号])。