日志系统之Flume采集加morphline解析博客分类： java

概述

这段时间花了部分时间在处理消息总线跟日志的对接上。这里分享一下在日志采集和日志解析中遇到的一些问题和处理方案。

日志采集-flume

logstash VS flume

首先谈谈我们在日志采集器上的选型。由于我们选择采用ElasticSearch作为日志的存储与搜索引擎。而基于 ELK（ElasticSearch，Logstash，Kibana）的技术栈在日志系统方向又是如此流行，所以把Logstash列入考察对象也是顺理成章，Logstash在几大主流的日志收集器里算是后起之秀，被Elastic收购之后更加成熟，社区也比较活跃。

Logstash的设计：input，filter,output。flume的设计source，channel，sink，当然flume也有interceptor。具体的设计就不多废话，大致上都是拆分，解耦，pipeline(管道)的思想。同时，它们都支持分布式扩展，比如Logstash既可以作为shipper也可作为indexer，flume可以多个agent组成分布式事件流。

我对flume的接触早于Logstash。最近调研Logstash的时候，对它强大的filter印象深刻，特别是grok。而之前flume阵营强调最多的是它的source,sink,channel对各种开源组件的扩展支持非常强大。

Logstash固然是一个不错的，但它采用JRuby语言（一种形似Ruby语法的JVM平台的语言）实现使得它的定制性不够灵活，这是我放弃Logstash的主要原因。因为生态的原因，我确实需要Java技术栈提供的扩展性（这里主要目标是将消息总线作为日志采集的缓存队列），而这正是flume的强项。但flume里很少有提及对日志的解析支持，即便有支持正则的interceptor，也只是很有限的查找、替换之类的。经过一番调研发现其实flume提供了这样一个interceptor——morphline。它可以完成对日志的解析。

日志解析-morphline

morphline简介

morphline是由flume的母公司cloudera开源的一个ETL框架。它用于构建、改变基于Hadoop进行ETL（extract、 transfer、load）的流式处理程序。（值得一提的是flume是由cloudera捐献给Apache的，后来经过重构成了flume- ng）。morphline使得你在构建ETL Job不需要编码并且不需要大量的MapReduce技巧。

morphline是一个富配置文件可以很简单得定义一个转化链，用于从任何数据源消费任何类型的数据，处理数据然后加载结果到Hadoop组件中。它用简单的配置步骤代替了Java编程。

morphline是一个类库，可以嵌入任何java程序中。morphline是一个内存容器可以存储转化命令。这些命令以插件的形式被加载到 morphline中以执行任务，比如加载、解析、转化或者处理单条记录。一个记录是在内存中的名称-值对的数据结构。而且morphline是可扩展的，可以集成已存在的功能和第三方系统。

这篇文章不是morphline的软文，所以更多介绍请移步cloudera的CDK官方文档。

这里有副图，形象地展示了morphline大致的处理模型：
系统。利用storm stream做实时解析，利用mapreduce做离线分析，这种高度定制化的使用场景，几乎不需要flume的agent在客户端进行解析的能力，因此flume的morphline也就很少被提及。

但morphline还是不可多得的文本ETL利器，无论你是在采集的时候直接用morphline 做ETL还是在服务端做，flume+morphline加起来带来的灵活性也不输Logstash。

http://www.2cto.com/kf/201511/450943.html

http://my.oschina.net/u/2311010/blog/523066?p=1

code etl java 技术栈分布式搜索引擎定制化数据源可扩展 html 使用场景 tpu 客户端 url cto