新闻中心
每一位客户都是我们的核心财富
行业动态云信公告
您当前位置:首页  > 新闻中心 > 行业动态

在你看不到的地方,人工智能是24小时来为你提供保障服务

来源:原创    时间:2018-02-12    浏览:5146 次

        是在一个大规模的在线系统中,大量的属性组合对有效组合的检测提出了挑战。为此,我们提出了iDice-1盎司,以有效地找到一个有效的组合,以降低系统的维护成本。去挖两天。下图显示了CPU使用率和两个任务(CPU密集型程序和磁盘密集型程序)的时间序列。现有的方法被抽象为故障预测是两个分类问题和非使用,分类模型(如随机森林,支持向量机)预测,并取得了很好的效果。通过对半年使用记录的分析发现,在紧急情况下,工程师使用的SAS约占服务的86%,SAS可以提供约76%的帮助来解决这些问题。首先,各种故障原因导致大型复杂系统的多样性,可能是由硬件或软件问题引起的,分布在不同层次的系统中,也可能是多个组件的故障在一起。为了查找异常KPI指标的原因,操作和维护人员通常从在线服务(如停机)运行指标和系统(如CPU使用率)相关切口。例如,如果一个节点可以预测数据中心(节点)故障,就可以提前进行数据迁移和资源分配,从而保证系统的高可靠性。

blob.png

        数据特征也非常多样,包括数值特征、类特征和时间序列特征,简单的模型已经不能再处理了。其次,极不平衡的正负样本对在线预测提出了极大的挑战。网络系统的庞大规模和复杂性给系统的运行和维护带来了自然的挑战。如果出现新的问题,我们将去问题库解决这个问题。定位到个体经营状态的“与众不同”的组成部分。但面对实际的生产环境,这些实验室的结果是“无法行动”。一个典型的事故管理过程可分为事故检测、接收和记录。如下图所示,日志分析分为两个阶段,一个是建设阶段,一个是产品阶段。

blob.png

        事件异常在线检测系统还接收来自世界各地客户的广泛问题,如用户类型(TenantType)、产品特性(ProductFeature)、操作系统(ClientOS)等。首先,高质量的标注数据是不够的。此外,有效组合应引起显著的增长报告编号。当您使用在线系统搜索网页、编辑文档、存储图片、听音乐、观看视频、玩游戏和享受在线系统的平滑服务时,后面有数十万到数百万台服务器,为您提供了7*24小时的可靠服务。但是,事件的发生可能与整个时间序列有关,但是传统的相关分析方法只能处理点对点。为了提供更加稳定的服务,除了KPI外,我们还将对系统日志的异常、异常事件识别和支持进行预测,对多维时间序列数据进行异常分析。从大量数据中自动发现可能与当前服务事故信息相关联,并有助于事故地点的发生机理、事故来源和推测;2)通过检测异常值来确定部件定位缺陷。升级、事故调查、事故诊断、解决系统恢复等方面的分类和分布。


        因此,我们与Azure专家密切合作,分析故障原因,挖掘系统日志,并提取重要的特征。然后提出了解决时间序列相关性问题的创新方法,即事件序列与3,对两个样本(2个样本)的问题进行了建模,然后给出了基于统计相关的最近邻法。除了互联网之外,智能操作和维护也将在金融、物联网、医药、通信等领域显示出强劲的需求。在构建阶段,我们从一个测试环境(通常是一个小型虚拟云平台)收集日志数据,进行矢量化(LogVectoralization),进行后加权聚类,从每个集合中选择一个有代表性的日志,并构建知识库。3)创建为每个事故案例的诊断信息的重用in.sas指纹(签名),和案例之间的相似度的定义。利用康算法求解在线预测问题,得到预测样本的故障概率。对于一个新问题,我们将到问题库中查找一个与其签名类似的问题。上面的故障预测主要介绍故障后如何诊断和修复效率,更理想的情况是防患于未然的问题。

blob.png

        其中,3个是基于剪枝修剪(基于影响的修剪)的影响,基于修剪(基于变化检测的修剪)和(隔离功率)的基于修剪的能力的变化检测,通过修剪可以有效地减少搜索范围(冲击)的有效组合。4)。在实践中,我们也遇到了其他的挑战,并提出了相应的解决方案。但是,基于机器学习的智能操作与维护仍然面临着一些实际的挑战。首先,我们将根据该问题的详细日志信息为该策略找到签名(签名)。健康节点(磁盘)标记为阴性样本,故障节点(磁盘)为阳性样本,在磁盘故障预测中,Azure中故障磁盘与健康磁盘的比值为每天03:1左右,预测结果倾向于将所有磁盘预测为健康,从而导致极低的召回率。因此,事故管理(事故管理)是保证网络服务系统服务质量的重要环节。智能诊断如果异常检测与高速公路上的交通拥堵相似,智能诊断目标就是在高峰时间或事故中找到根本原因,或者有流氓竞争吗?在运行过程中基于系统的大量监测数据进行深入分析的异常诊断。


        服务分析工作室在文末(SAS)系统在实际运行中,会导致系统故障的系统服务质量下降甚至停电事故,通常称为服务(服务事件)。汽车修理技术已经应用到微软的在线服务,维护,并有效降低MTTR,请在[ 6 ]的细节。为了使结果的综合分析可以很SAS易于理解和使用的用户,我们将得到不同的算法结果进行集成,在报告中提出了方便用户use.sas 2011年6月微软的在线产品部门的综合结果,并安装在一个大型的在线服务产品事故管理全球数据中心。系统日志,非结构化信息的日志分析为结构化日志记录,然后在不变因子挖掘结合后,最终实现异常检测,见参考文献2的参考文献2。图的关系:时间序列数据的相关分析和监测数据的事件序列数据和系统的状态在诊断中起着重要的作用。事件之间的时间序列数据和单系统相关问题很多,但由于时间序列和时序类型的事件序列是异质的,相关分析、传统模型(如皮尔逊相关和斯皮尔曼相关)在大规模中的作用是不同的。这些往往包含大量的监测数据,能够反映系统的运行状态和逻辑信息的执行情况,因此在大多数情况下都要对事故进行诊断分析,在过去几年中提供足够的支持和解决。为了解决上述问题,提出了一种基于日志聚类的问题诊断方法。


        影响因素对用户产生的影响,由多个用户的属性效应的组合所造成的影响被认为具有更大的影响,而有效的组合应该是属性影响的组合。向操作和维护人员提供最有可能发生故障的示例。为了降低MTTR,AD2AD2是衡量系统可靠性和保证用户满意度的重要指标。在过去的几年里,许多大公司在网上操作系统出现了好几次。异常检测对于保护稳定的服务尤为重要。异常检测对于保护稳定的服务尤为重要。由于样本数据集不能表示真实情况,训练后的模型也会有偏差。


        此外,随着传统软件系统的一次和对于以不同方式固定的所有弱点,在大规模在线系统中,也可能重复出现一个修改的问题,因此诊断可能进行大量的重复工作。同时,更多的研究者应该关注和实践它。图iDice显示了iDice的总体架构。异常检测对于保证稳定的服务尤为重要。大数据和人工智能的发展带来的机遇和挑战,为在线系统的运行和维护改革创造了“东风”,使操作和维护从人工向自动化发展。我们利用分析软件,解决了在线系统的事故管理问题,开发了一套服务分析系统(SAS),帮助软件维护人员和开发人员快速处理,分析系统监控数据,提高事故管理效率和响应速度。由于在操作和维护领域有着很强的知识,我们需要一位专业的操作工程师或专家来获得高质量的标注数据,这一过程花费了大量的时间,因此需要一个高效的数据标注方案。这就要求操作维护人员不仅有较强的知识和设备,而且还具有解决实际问题的技能。


        分析是记录记录系统相关信息的关键方法,日志数据日志数据已成为5的一个重要资源。CPU丰富使用率曲线是典型的时间序列,事件发生的顺序用于记录事物的系统,例如当系统存储器不足时,可能记录一系列的“内存不足”事件。我们从2012开始收集SAS用户记录。抽样方法也不适用于在线预测。属性描述真实的事件,例如用户类型(TenantType)、产品特性(ProductFeature)、操作系统(ClientOS)等等。其主要思想是利用过去的诊断经验,在新问题发生时,为新问题提供合适的解决方案。近年来,我们的研究成果已经应用于许多在线服务,如微软Skype,OneDrive,Office 365,Azure等。机器系统的其他部分,来自不同来源的各种事件产生的数据处理和服务程序。


        近年来,大量的自动化脚本对大型在线系统服务进行了实时分析和处理。尽管样本总量大,但异常类型较少,类别不均匀。现有的机器学习方法所能提供的场景与实际的生产环境之间存在着巨大的差距。(自动诊断)、异构数据关联的时间序列分析(时间序列)数据和事件序列(事件序列)数据是两种常用的数据系统,包括系统状态信息。然后,基于区分能力的原理,定义了信息熵,快速确定了有效组合。这类服务事故往往给企业带来巨大的经济损失和严重的企业形象损害。具体而言,在本文结尾,SAS包含以下方法(见[ 7 ]:1)可疑信息挖掘。日志数据的类型也非常不同,但并非所有日志信息在诊断问题时都同样重要。下图显示了该策略的主要流程。首先,我们将从问题报告中整理出所有可能的属性组合,然后在3次修剪后对其余属性进行排序,最终找到问题突发增长的有效组合。两起事故发生时,将检查是否有类似情况,并在以前类似案例的基础上对当前事故的解决提供参考解决方案。如果出现新的问题,我们首先使用形式概念分析将高度相关的事件组合在一起,即概念,并根据相互信息度量每个概念与相应日志记录之间的相关性,然后根据相关数据生成问题签名。实践中遇到了这样的挑战:1.定位异常原因的索引数据个数?2.如何关联异常数据序列的类型和文本类型记录?为了解决上述问题,我们提出了3的异构数据分析方法的相关性、使用4的日志记录数据诊断分析定位的问题、以及AD2的(异常检测)和自动诊断系统的质量指数数据中的异常识别。事故管理的各个方面通常是通过对测试数据的分析,从软件系统中收集大量的监测数据,其中包括系统运行过程记录的详细日志(日志和跟踪)和CPU计数器。