当前位置:AIGC资讯 > 数据采集 > 正文

抖音数据采集教程,高级版

上一篇文章讲了如何对采集的数据进行抓包和解析,本次主要讲解如何使用自动化工具,实现自动化数据采集。如果想了解抓包和解析部分的内容,可以查阅我的上一篇文章《数据平台初试(技术篇)——抖音数据采集(初级版)》,文末附有上篇文章的传送门。本次用到的工具:移动端自动化工具Appium,夜神模拟器(也可以用真机代替),adb工具。

运行环境准备工作

开始进入数据采集的准备工作,在上一篇文章的基础上,搭建自动化环境,首先需要配置android-sdk,安装教程可参考如下链接,最后需要验证adb命令是否可用,在命令行窗口运行adb version,出现版本号信息,说明adb工具可用,android sdk下载及安装教程请参阅如下链接:

https://www.cnblogs.com/woniu123/p/10755262.html

配置好android-sdk后,就可以安装Appium了,下载地址如下,此处我们选择appium-desktop-setup-1.9.0.exe版本:

https://github.com/appium/appium-desktop/releases/download/v1.9.0/appium-desktop-setup-1.9.0.exe

下载好后基本是下一步安装,安装完成后启动应用,出现如下窗口证明安装成功:

点击 “Start Server V 1.9.0”启动服务,出现如下页面则证明启动成功,端口为4723:

打开之前配置好的模拟器,此时在命令行窗口运行adb devices,会出现连接的模拟器设备,证明运行环境准备完成

接下来是运行环境配置,点击appium的 Start Inspector Session

需要配置如下启动参数:

{ "platformName": "Android", "platformVersion": "5.1.1", "deviceName": "127.0.0.1:62001", "appPackage": "com.ss.android.ugc.aweme", "appActivity": "com.ss.android.ugc.aweme.main.MainActivity", "noReset": true}

platformName:模拟器运行的平台,填入Android
platformVersion:查看模拟器的安卓版本,填入即可
deviceName:此处为运行adb devices命令得到的设备,当前模拟器为127.0.0.1:62001
appPackage和appActivity:抖音app的包名和启动方法名,可通过android-sdk\build-tools\29.0.2下面的aapt.exe工具获得
配置好后,点击Star Session,看到模拟器启动抖音app则证明环境配置无误。

业务场景说明

有了运行环境,接下来介绍下本次的需求,打开模拟器中安装的抖音app,首先下滑刷新视频,再进入用户主页,分别对主页数据,关注数据,粉丝数据,作品和喜欢页签进行采集。appium需要做的对应操作如下:
1.下滑刷新视频
2.左滑进入用户主页
3.点击关注按钮
4.开始下滑关注列表,直到出现“暂时没有更多了”
5.返回用户主页
6.点击粉丝按钮
7.开始下滑粉丝列表,直到出现“暂时没有更多了”
8.返回用户主页
9.点击作品页签
10.下滑作品视频列表,直到出现“暂时没有更多了”
11.点击喜欢页签
12.下滑喜欢视频列表,直到出现“暂时没有更多了”
13.返回视频页面,重复步骤1

代码准备

安装python的Appium客户端:

pip install Appium-Python-Client

准备撸代码。
1.启动app

device_name = '127.0.0.1:62001'device_port = '4723'desired_caps = { "platformName": "Android", "platformVersion": "5.1.1", "deviceName": device_name, "appPackage": "com.ss.android.ugc.aweme", "appActivity": "co.........

更新时间 2023-11-08