如何使用ARMS配置tengine的日志监控

xiaoxiao2021-04-16 407

来自深圳市小亿网络有限公司王昕岩

最近公司通过业务实时监控服务 ARMS 成功搭建了基于tengine的日志监控系统。这里简单分享一下使用ARMS用于监控tengine日志的经验。

公司发展至今，现阶段所有接口都使用阿里的tengine作为web容器，类似nginx，在日志中也记录了包括host, url, ip, 包体大小，响应时长等信息。目前的业务需求场景是希望有一套系统来监控接口的异常，来及时发现系统的异常，并能具体到哪些项目、哪些服务器、甚至哪些URL出现异常，提高分析问题和解决问题的速度。

tengine日志分布到不同服务器上，首先使用日志服务来分别收集这些日志。再以logHub作为日志源，来进行监控。想到使用ARMS的其中一个最重要原因是因为我们系统tengine的日志格式有一定的定制，需要有一个端到端监控产品提供的定制化特别强的数据清洗功能，以及聚合计算+报警功能。

这里详细介绍一下ARMS吊炸天的日志切分功能。

第一步，一个开始节点；第二步，LogHub数据源过来默认是JSON格式，进行JSON解析，如下图：

注意日期类型的时间格式，尤其是“小时”部分，默认格式是hh（12小时），需要改为HH（24小时）。第三步，清洗，过滤掉这里不需要监控的host，如下图：

通过函数，过滤掉不以指定域名结尾的host。第四步，解析URL。使用“单分隔符切分器”，将request字段按照空格切分，分别获取调用方式（GET/POST）、完整URL、协议版本。

第五步，区分错误码。这里主要是为了区分，返回码是代表正常、还是错误。这里只对错误的返回码进行监控。下图的例子是，返回码是4xx或5xx的表示错误，其他表示正常。新增字段is_error表示是否是“错误码”，赋值1或0表示是或否。

第六步，配置服务器IP和服务器名称的对应关系。配置了一个映射表如下：

注意，这里一定要配置一个127.0.0.1的k-v关系，否则日志切分预览的时候会看不到这个“服务器名称”字段。

最后，再简化一下host，把域名的后缀去掉，只保留前缀。

至此，日志切分全部结束。点击“日志切分预览”，即可查看切分效果。点击保存，下一步。

配置数据集，例如要监控接口的访问次数，使用count(_line)；要监控平均包体大小，使用sum(包体大小)÷count(_line)；要监控平均响应时长，使用sum(响应时长)÷count(_line)。维度根据需要配置，此处配置为先服务器，后接口域名。

至此配置全部结束，点击保存，完成配置。即可启动任务了。以上为简单示例。

这边展示我制作的其中几项监控的大盘。

请求数效果图：

响应时长效果图：

包体大小效果图：

错误码个数效果图：

运维人员通过对几个图表的观察分析，可以很快得出一些异常情况发生的原因，并及时处理掉。

一个年轻的互联网公司，需要不断的成长。系统也一样，需要不断的提升、优化。业务实时监控服务 ARMS 很好的提供了这么一个入口，为公司提供了一个实时查询Tengine运行情况的解决方案。在未来，ARMS将很好的和ODPS为公司监控形成互补方案，tengine日志日后可同时投递到ARMS和MaxCompute中: ARMS响应第一时间的多维度报警； MaxCompute来做深层次分析，例如接口的请求数、响应时长等，并有针对性地进行调优。

业务实时监控ARMS正在公测了解全部阿里云互联网中间件产品和使用场景

相关资源：七夕情人节表白HTML源码(两款)

技术

最新回复(0)