当前位置:AIGC资讯 > 数据采集 > 正文

抖音数据采集教程,初级版

这段时间一直在处理数据采集的问题,目前平台数据采集趋于稳定,可以抽出时间来整理一下近期的成果,顺便介绍一些近期用到的技术。本篇文章偏向技术,需要读者有一定的技术基础,主要介绍数据采集过程中用到的神器mitmproxy,以及平台的一些技术设计。以下是数据采集整体的设计,左边是客户机,在里面放置了不同的采集器,采集器发起请求之后,通过mitmproxy访问抖音,等数据回传之后,通过中间的解析器对数据进行解析,最后分门别类的存储到数据库中,为了提升性能,在中间加入了缓存,把采集器和解析器分隔开,两个模块之间工作互不影响,可以最大限度的把数据入库,下图为第一代架构设计,后续会有一篇文章介绍平台架构设计的三代演化史。

准备工作

开始进入数据采集的准备工作,第一步自然是环境搭建,本次我们在windows环境下,采用python3.6.6环境,抓包和代理工具是mitmproxy,也可以使用Fiddler抓包,采用夜神模拟器来模拟安卓运行环境(也可以用真机),这次主要通过手动滑动app来抓取数据,下次介绍采用Appium自动化工具,实现数据采集的全自动(解放双手)。
1、安装python3.6.6环境,安装过程可自行百度,需要注意的是,centos7自带的是python2.7,需要升级到python3.6.6环境,升级之前主要先安装ssl模块,否则升级好的版本无法访问https的请求。
2、安装mitmproxy,安装好python环境后,在命令行执行pip install mitmproxy安装mitmproxy,注:windows下只有mitmdump和mitmweb可以使用,安装好后在命令行输入mitmdump即可启动,默认启动的代理端口为8080。
3、安装夜神模拟器,可以在官网下载安装包,安装教程自行百度即可,基本都是下一步。安装好夜神模拟器之后,需要对夜神模拟器进行配置。首先需要设置模拟器的网络为手动代理,IP地址为windows的IP,端口为mitmproxy的代理端口。

4、接下来是证书的安装,打开模拟器中的浏览器,输入地址mitm.it,选择对应版本的证书,安装好后,就可以进行抓包了。

5、安装app,app安装包可以到官网下载,然后通过拖拽进模拟器就可以安装,或者在应用市场进行安装。
至此,本次数据采集环境就全部搭建完成。

数据接口分析 抓包

搭建好环境之后就开始对抖音app进行数据抓包,分析出每个功能所使用的接口,本次以采集视频数据接口为例介绍。
关闭之前打开的mitmdump,重新打开mitmweb工具,mitmweb是一个图形化的版本,就不用对着黑框框找了,如下图:

启动之后打开模拟器的抖音app,可以看到已经有数据包解析出来了,然后进入用户主页,开始下滑视频,在数据包列表中可以找到请求视频数据的接口https://aweme.snssdk.com/aweme/v1/aweme/post/

可以在右边看到接口的请求数据和响应数据,我们将响应数据复制出来,进入下一步解析。

数据解析

更新时间 2023-11-08