本篇文章我将给大家介绍“分布式链路追踪”的内容,对于目前大部分采用微服务架构的公司来说,分布式链路追踪都是必备的,无论它是传统微服务体系亦或是新一代Service Mesh的微服务架构!而具体介绍的内容,本文不是完全讲理论,而是希望从理论到实践,引导大家去操作,因为只有这样才能真正从技术层面有深刻的认识和了解!
分布式链路追踪概述
在具体介绍分布式链路追踪系统之前,我们首先需要理解下什么是链路追踪?在本专栏前面关于监控系统的介绍中可以知道,监控系统的观测数据主要来源于统计指标、日志以及链路追踪这三个方面。而这些数据从类型上又可以划分为两种:请求级别、聚合级别。
请求级别的数据主要来源于真实的请求,例如一次HTTP调用、RPC调用等,本文要介绍的链路追踪就是这种类型。而聚合级别则是接口请求的度量指标或者一些参数数据的聚合,如QPS、CPU使用率等数值。日志和统计指标数据既可以是请求级别,也可以是聚合级别,因为它们可能来自源于真实的请求,也可能是系统自身诊断时记录下来的信息。
而对于链路追踪来说,它主要的逻辑就是将请求链路的完整行为记录下来,以便可以通过可视化的形式实现链路查询、性能分析、依赖关系、拓扑图等分布式链路追踪相关的功能。如下图所示:
在上图中假设微服务系统中的一次接口调用总共有两个微服务参与,其调用关系分别是A->B->C,其中B服务还与Redis这样的第三方服务产生了调用关系、C服务则还需要调用MySQL数据库服务。所以实际上链路追踪所做的事情就是详细记录A->B(B->Redis)->C(C->MySQL)这条完整链路上的详细调用信息,例如接口响应结果、耗时等。
那么这条调用链路上的数据到底是怎样被记录的呢?接下来我们继续以上面的调用链为例分析下链路追踪信息的具体组成和传递形式,以便进一步理解分布式链路追踪系统的原理和概念。具体逻辑示意图如下:
如上图所示,分布式链路追踪所监控的对象就是一次次调用所产生的链路,图中1-8所示的就是一条完整的链路(Trace),系统会通过唯一的标识(TraceId)对此进行记录。而链路中的每一个依赖调用都会生成一个调用踪迹信息(Span),最开始生成的Span叫做根Span(Root Span),后续生成的Span都会将前一个Span 的标示(Sid)作为本Span信息的父ID(Pid)。
这样以此类推,Span信息就会随着链路的执行被进程内或跨进程进行上下文传递,通过Span数据链就能将一次次链路调用所产生的踪迹信息串联起来,而每一个Span之上附着的日志信息(Annotation)就是我们进行调用链监控分析的数据来源。这就是分布式链路追踪的基本原理。
而说到这里,你可能会有疑问:监控这么大的数据量,是不是会很消耗系统资源?的确如此,所以大部分链路追踪系统,都会存在一个叫做采样率(Sampling)的设定,用来控制系统采集链路信息的比例,从而提升系统性能。因为很多时候,大量的链路信息都是相同的,我们需要关注的可能也只是相对耗时较高、出错次数较多的链路,而并没有必要100%的进行采集。
SkyWalking简介
前面我们从基本原理的角度说明了链路追踪是什么,那么接下来我们将介绍下目前最流行的分布式链路追踪系统——SkyWalking。
SkyWalking是一款优秀的开源APM(Application Performance Management)系统,它不仅提供了链路追踪,链路分析等分布式追踪功能,还支持性能指标分析、应用和服务依赖性分析、服务拓扑图分析、报警等一系列应用性能监控相关的功能,可以帮助我们有效地定位问题。
而从数据收集上看,SkyWalking支持多种不同的数据来源及格式,包括支持Java、.NET Core、NodeJS、PHP和Python等不同语言的无侵入式Agent探针,以及对Service Mesh(服务网格)架构的支持等。其具体结构如下图所示:
如上图所示,SkyWalking的核心由链路收集服务器(Receiver Cluster)、聚合服务器(AggregatorCluster)组成。其中Receiver Cluster是整个后端服务接入的入口,专门用于收集服务的各种指标及链路信息。
而AggregatorCluster则用于汇总、聚合收集器收集到的数据,并最终将聚合数据存储到数据库中,而具体存储方式可以有多种,例如常见的ElasticSearch、MySQL、TIDB等,我们可以根据实际需要进行选择。这些聚合数据后面可以用于告警设置,也可以被GUI/CLI等可视化系统以HTTP的形式访问后进行可视化展示。
此外,从数据采集逻辑上看,SkyWalking支持多种语言探针及项目协议,能够覆盖目前大部分主流的分布式技术栈,具体来说主要有以下3种:
Metrics System:统计系统。支持直接从Prometheus中拉取度量指标数据到SkyWalking,也支持程序自身通过micrometer推送数据;
Agents:业务探针。指在各个业务系统中集成探针服务来进行链路追踪,即链路数据采集。SkyWalking支持Java、Go、.NET、PHP、NodeJS、Python、Nginx LUA等多种语言的探针。此外,它还支持通过gRPC或者HTTP的方式来传递数据;
Service Mesh:SkyWalking还支持对新一代微服务架构Service Mesh的监控,可以通过特定的Service Mesh协议采集数据面、控制面的数据,实现对服务网格链路数据的观测;
上面的内容简单介绍了SkyWalking的基本情况,并就其系统架构进行了简单分析。实际上SkyWalking最近两年发展得非常快,社区也非常活跃,在微服务链路追踪、应用性能监控领域被使用得也越来越广泛,由于篇幅原因,这里无法进行更深入的分享,感兴趣的读者可以通过官方文档或社区进行深入了解!
SkyWalking安装部署
前面的内容分别介绍了分布式链路追踪的基本原理,并着重介绍了SkyWalking!很显然,写到这里就结束的话,本文就没有啥价值了,因为只是说了一堆正确的废话,看了也就忘了!这显然也不符合我分享的风格,接下来我们就从实验的角度来玩一下SkyWalking。
以下内容需要进行实际实验操作,如果在地铁上不方便可以先收藏,有时间再具体实验玩下!
对于SkyWalking的部署主要涉及到后端OAP Server和前端UI,根据实际需要可以将它们部署在物理机、虚拟机或者Kubernetes集群之中。这里为了演示环境的一致性,我们选择将SkyWalking的后端服务及UI分别部署到Kubernetes集群中。
而具体安装SkyWalking的方式可以通过官方提供的Kubernetes部署文件采用Helm方式安装,也可以手动编写Kubernetes部署文件,这里为了便于学习,我们采用后一种方式。具体步骤如下:
1)、在Kubernetes集群中创建一个单独运行SkyWalking容器的Namespace。命令如下:
#通过kubectl连接Kubernetes集群后执行,创建namespace命令$ kubectl create ns skywalking
命令执行完成后,可以查看Namespace是否创建成功,命令如下:
#查看namespace创建情况$ kubectl get nsNAME STATUS AGEdefault Active 10dkube-node-lease Active 10d.........