抖音、快手数据采集,短视频监测大屏
本文介绍在数据采集过程中不可或缺的一枚神器——数据采集监控大屏,如果想了解数据采集过程中的一些技术,欢迎查阅我的另外几篇文章,文末附有两篇数据采集文章的链接。先看下面三张图:
三张图,不同的时间段,对应的日采集数据量分别在10万,30万,110万,不断刷新自己创下的单日采集数据量记录,可能有人会好奇,为什么最后两天采集到的数据量有暴增的趋势,偷偷告诉你们,这两天是新架构设计方案完成之后,开始测试的两天,第一天轻松达到了53W数据,超过之前极大值近两倍,而第二天更是突破了100W,所以,前面的凹槽,就是新架构开发测试的时间了。图片出自数据采集监控大屏,完整图如下:
通过以上截图可以得知,目前数据平台总共采集了近700W数据,而最多一天采集数据达到了110W以上,日处理任务量达到30W以上,还能查看到不同业务通道采集到的不同数据的数据量。这个大屏建设的初衷就是为了监控数据采集平台各方面的性能,在采集平台性能优化的同时,监控大屏也在不断优化自身的性能,占用越来越少的平台资源,其中最大的优化算是每日采集数据量统计图。而随着数据量的不断增加,不仅平台压力越来越大,监控大屏性能也越来越差,统计到的阻塞数量也越来越多,这个阻塞数目,监控的是内存中线程的阻塞数,如果这个数量越来越多,最直接的后果就是死机。而每天的数据量还在增加,业务也在扩大,硬件资源就那么多,急需寻找新的解决办法,在这种场景下,数据采集平台2.0架构设计横空出世,解决所有阻塞问题,而且将日采集数据量从30万提升到110万,理论值从50万提升到160万。数据采集平台2.0架构设计为将来的数据暴增预留了位置,支持分布式的横向扩展,这样,随着以后数据的增长,升级就变得非常简单了,接下来本篇文章主要介绍这款监控大屏。
监控大屏简介
监控大屏主要运用数据可视化技术,对采集平台进行监控,定时刷新平台运行数据,通过这款监控大屏,曾经发现了平台的一个死锁问题,当时问题非常隐蔽,平台没有报错,数据还在增加,通过大屏,意识到数据增长变得有一点慢了,有几张表没入库数据,后来开始排查,发现了平台死锁问题。如果该问题没被发现,后续造成的损失将变得不可控制。监控大屏功能如下:
1.每日采集数据量:统计平台近期,每天采集到的数据量,以此来判断平台在一段时间内的健康状况和负载情况。可根据该指标制定性能测试计划。
2.各主机执行任务统计:统计当前小时,各台机器执行任务的数量,以此来判断各个机器的性能以及资源配置。
3.全网数据量:统计整个平台实时数据量,以此来判断平台压力,确定是否需要升级新架构。
4.当前时间采集数据量:统计当前小时,每张表增加的数据量,对每一类数据是否正确入库做监控。
5.全网数据分布:统计平台所有表的数据量,以此来判断各表压力,为后续分库分表提供依据。
6.阻塞数统计:统计个主机中,各个程序阻塞的线程数,以此来判断各机器的性能,阻塞越多,内存占用越多,最终将导致机器宕机。理想情况是,此处为空白,即程序运行不阻塞。