微信采集的重点就是微信公众号相关的数据、主要是发布的文章、其他的话还有点赞阅读以及公众号的账号信息等。下面会大家一一说明如何采集、以及采集的一些限制。
首先是数据来源、主要分为两大块。客户端采集和搜狗微信采集。
搜狗微信采集相对来说比较简单,主要解决IP问题不断的去模拟搜文章和搜公号两个操作即可非常方便的采集到我们想要的文章。但是搜狗微信的局限也非常明显,1、信息不全面、据估算公号覆盖率应该只有百分之80左右。2、没有点赞阅读等信息。3、搜公号板块下所采集的文章链接为临时链接,超过一定时间或者到达一定点击次数就会失效,这个值需要具体论证。注:失效的链接通过微信客户端还是可以打开的、当然也有方法可以将临时链接转化成永久链接。
我们重点还是讲解客户端如何进行采集。首先我们看一下微信文章的永久链接的格式 :https://mp.weixin.qq.com/s?__biz=MzAwMDE0OTU5Nw==&mid=2657482754&idx=2&sn=746d7c43acb057fd83bcc582fab19840&chksm=817c0930b60b8026cc32aee211e1d3bf044e43e8d323d30579835f80c182cb7319b2e8ea3dbd&scene=27#wechat_redirect
关键的几个参数,1、Biz就是微信公号的ID 。2、mid文章的id。3、idx文章在该组文章中的顺序。4、sn(加密值、暂时不知道如何生成)。
接下来我们通过在客户端打开链接、抓个包可以看到下面的链接明显比上面的长,多了好几个参数。这里主要需要关注的是uin和key。UIN你自己的微信号ID、key字面意思就是钥匙通过变化公号BIZ我们可以发现这个Key的使用范围仅仅当前的公号有效、即只能访问带有这个BIZ的链接。那么问题来了、当我们需要大量访问不同公号的时候我们如何去处理。接下来会引入一个万能Key的概念、顾名思义使