主要内容
监控的必要性云监控配置监控的必要性
越来越多的用户选择将业务部署在云上,大大减轻了运维成本和压力,其中合理的监控设置功不可没,设置合理的监控不仅可以让用户实时了解系统业务的运行情况,还能帮助用户提前发现问题,避免可能会出现的业务故障;同时有效的告警机制能让用户在故障发生后第一时间发现问题,缩短故障处理时间,以便尽快地恢复业务。
云监控配置
此网站架构如下图所示,其中使用到了阿里云产品ECS,RDS,OSS及负载均衡SLB,下面针对此种类型的架构,说明云监控的配置使用。
在开始设置监控前,需要检查ECS监控插件运行情况,确保监控信息能够正常采集,如安装失败需要手动安装,请参考云监控插件安装指南。此外,还需要提前添加报警联系人和联系组,建议设置至少2人以上的联系人,互为主备,以便及时响应监控告警。监控选项的设定,具体可参见云服务资源使用概览和报警概览。利用云监控的Dashboard功能,给您业务系统的云资源设置一个全局监控总览,可随时检查整个业务系统资源的健康状态。下图根据ECS分组选择添加监控的资源,依次添加内存使用率,CPU使用率等监控项。监控的实例数较少可以选择实例维度作为展示,如有多实例建议以分组或者用户为维度展示;监控数据取平均值。
为了更好的监控大屏展示效果,这里将ECS的CPU、内存、磁盘的使用率单独分组展示;将RDS的四项指标分两组展示。
报警阈值
关于各项监控指标的报警阈值说明,建议根据实际业务情况斟酌设置,不要设置太低以免频繁触发报警影响监控服务体验,也不要设置太高以免触发阈值后没有足够的预留时间来响应和处理告警。
报警规则
以CPU使用率为例,由于需要给服务器预留部分处理性能保障服务器正常运行,所以建议将cpu告警阈值设置为70%,连续三次超过阈值后开始报警。如下图所示点击添加报警规则继续设置内存和磁盘的报警规则和报警通知人即可。
进程监控
对于常见的web应用,设置进程监控,不仅可以实时监控应用进程的运行情况,还有助于故障的排查处理,下图是java进程的相关监控示例。
站点监控
在云服务器外层的监控服务,站点监控主要用于模拟真实用户访问情况,实时测试业务可用性,有助于的故障排查处理。
RDS监控
建议将RDS的CPU使用率告警阈值设置为70%,连续三次超过阈值后开始报警。硬盘使用率,最大IOPS使用率,连接数等其他监控项可根据您的实际情况来设置。
负载均衡监控
为了更好使用负载均衡的云监控服务,需要先开启负载均衡SLB的健康检查,详情参见健康检查机制和配置说明建议设置负载均衡SLB带宽值的70%作为告警阈值,如下图所示。
如以上监控选项不能满足您的实际业务监控需求,可以参见创建自定义监控项和报警规则。
原文链接