机器学习如何改善IT运营

    xiaoxiao2021-04-16  280

    如今,IT运营团队通常侧重于采用监控方式监控多种基础设施,如设备,网络,服务器,应用和存储,这意味着整体等于其部分的总和。根据2015年度应用程序的绩效监测调查,65%的受访公司拥有10多种不同的监控工具。

    尽管监控仪器的功能和收集的数据量都在增加,但企业几乎没有使用更大的数据集来通过根本原因分析和事件预测来提高可用性和性能过程的有效性。W.Cappelli在调研机构Gartner公司2015年10月发布的一份报告中强调,“尽管过去10年的可用性和性能数据量已经增加了一个数量级,但企业发现他们拥有的数据没有足够的可操作性,诊断其性能问题的根本原因的时间平均为7天,而2005年为8天;2015年仅有3%的事件被预测,而2005年为2%。其关键问题是企业如何理解这些数据?”

    这基本上是一个很大的数据问题:大量的数据采用仪器技术能够收集监控环境的细节;实时收集数据;来自半结构化日志数据的数据类型,可在变更/事件票据中找到的非结构化人类自然语言以及出现在APM事件中的结构化数据;以及由于未清理,不可信或缺少测量而导致的数据真实性。作为回应,行业厂商正在推出IT操作分析(ITOA)解决方案,作为对IT系统行为的洞察力的一种方法:

    ·知道什么时候有问题影响用户

    ·根据业务影响对问题进行优先排序

    ·避免追查不存在的问题,或者不影响用户的优先级

    ·使用与性能指标匹配的问题定义进行故障排除

    ·知道什么时候(或如果)真的解决了一个问题

    来自Gartner公司的ITOA市场见解讲述一个有趣的故事:ITOA解决方案2014年的支出与2013年相比翻了一番,达到16亿美元,而估计表明目前只有10%的企业使用ITOA解决方案。

    收集数据的意义

    相关的交叉仓库数据不是一个新问题。在过去,一个称为事件关联引擎的常见相关技术处理事件过滤,聚合和屏蔽。根据统计分析和信号处理的下一个方法,比较了使用相关,互相关和卷积的相关活动时的不同时间序列检测。最近,基于聚类的新一轮机器学习算法应用了一种能够识别事件风暴的智能过滤技术。

    虽然这些技术是有用的,并且通过减少进入调查的事件的数量使生活更容易,但他们并没有回答目前的关键问题:“问题的根本原因是什么?

    了解两个时间序列如何相关联并不意味着哪一个引起另一个时间序列的尖峰,这种分析并不意味着导致因果关系。为了超越这一点,人们需要了解数据源之间的因果关系。

    有效的根本原因分析的关键在于建立可用数据源之间的因果关系。了解哪些数据源包含会影响环境的触发器,触发器的实际结果,以及环境如何响应这些更改至关重要。

    连接点与机器学习

    关键的障碍是建立收集的数据源之间的基本关系。主要任务是使用因果关系关联事件,票据,警报和更改,例如将更改请求链接到环境中的实际更改,将APM警报链接到特定环境,以及将日志错误链接到特定的Web服务等。在处理各种级别的非结构化数据时,链接过程(或相关性)并不明显。这是机器学习的完美任务,因为它可以创建不同数据源之间的一般规则,确定如何将它们链接到环境,以及何时可以这样做。

    机器学习是研究如何设计可以通过观察数据学习的算法的领域。机器学习传统上被用于发现数据的新见解,开发可以自动适应和自定义自己的系统,以及设计系统,这些系统太复杂/太昂贵,无法实现所有可能的情况,例如自主驾驶汽车。随着机器学习理论,算法和计算资源的需求日益增长,人们在ITOA解决方案中看到越来越多的机器学习应用程序并不奇怪。

    还可以利用机器学习来构建基于环境拓扑,组件依赖关系,配置依赖关系的环境依赖模型。一方面,可以利用这样的环境依赖关系模型来通过抑制从报告问题的环境中不能访问的元素的根本原因来应用基于拓扑的相关性。

    另一方面,这种依赖图可以用概率贝叶斯网络建模,这可能会增加模型的误差传播概率,缺陷溢出和影响。建立这样一个模型实际上是不可行的,因为即使没有解决不断发展的环境结构,它也需要指定许多环境组件之间的影响概率。然而,通过利用机器学习和大量描述历史性能的数据,可以构建一个自动估算所有必需概率并即时更新的模型。

    结论

    由机器学习的ITOA解决方案处理的收集的数据的分析现在获得了全新的视角。可以同时分析由分离的监控解决方案收集的数据,从而产生语义上注释的事件序列。通过应用概率匹配,模糊逻辑,语言相关性和频繁模式挖掘,可以大大减少可能根本原因的简短列表。最后,通过自动推断执行的最可能的根本原因的推理,现在考虑到环境依赖结构以及以前的事件。


    最新回复(0)