2019年10月10日,睿象云CEO 高科在京召开新闻发布会宣布:公司历时18个月,在中山大学数据科学与计算机学院陈鹏飞团队的鼎力协助下,成功构建了国内第一个中文运维知识图谱(Chinse Operation Knowledge Graph,以下简称:COKG)。
随着国内近10年来IT云化和微服务化的持续火热,企业对运维能力的要求开始不断提高。人工智能算法的不断突破,也让越来越多的企业开始尝试购买和使用智能运维平台来帮助自身从自动化运维走向智能化运维。
睿象云正是一家帮助企业智能化运维转型的公司。自成立以来,睿象云致力于通过人工智能技术来提升企业的智能化运维能力。在开展 AIOps 相关项目的过程中,睿象云的技术人员逐渐发现运维知识图谱是 AIOps 的基石,在不依托运维领域的知识图谱的情况下,根因定位的准确度,运维知识推荐等一系列智能运维的场景都无法达到令人满意的效果。
深度挖掘海量信息,AIOps需要知识图谱
众所周知,计算机擅长处理结构化形式的数据,为了让计算机能够处理这些信息,就必须要理解这些非结构化形式数据所蕴含的语义,分析其中的语义单元之间的关系,从而将其转换成结构化形式。而“图”是一种可以有效表示数据之间结构的表达形式。因此,如果将数据中蕴含的知识用“图”的结构进行形式化表示,将数据的结构化与已有的结构化数据进行关联,检索与查找的便利性就能得到极大的提升。这便是Google 公司于2012年提出的“知识图谱”的概念。
然而,在复杂的IT运维领域中,随着海量的事件不断出现以及多数据源融合的交叉应用,致使传统的IT运维管理模式一直很难突破对人的巨大依赖。一旦系统出现严重告警事件,如果没有丰富的运维经验或者了解系统脉络的人员,很难快速地解决IT系统故障问题,被运维工程师们寄予厚望的AIOps也只能是纸上谈兵。
睿象云研发团队经过深思熟虑,提出了一个基于知识图谱搭建智能运维体系的新构架。睿象云的团队认为,企业的IT知识和通用领域下的IT知识要沉淀到运维图谱里面,然后结合从IT生产系统采集的指标和事件数据,搭建出企业完整的智能运维平台。相比传统的运维体系,知识图谱数据库可迅速调用IT事件之间的关系,通过系统推理辅助分析并得出问题根因,极大地提升事件处理效率,让业务运行更加可靠。
图1:基于知识图谱搭建智能运维体系的新构架
首个“中文运维知识图谱”,IT事件关联智能解析
传统模式下,企业的IT知识和通用领域下的IT知识通常蕴含在数据之中。这些海量的数据中包含了大量运维领域的相关知识和资深技巧以及蕴含经验的有用信息。只有通过基于知识图谱搭建智能运维体系的框架下,计算机才能自动阅读、分析、理解这些海量、繁杂乃至泛滥的数据,从中挖掘有价值的知识,继而向使用者提供精准知识服务,最终实现真正的AIOps。
睿象云的研发团队联合中山大学数据科学与计算机学院的陈鹏飞教授团队,经过了长达一年半的紧密合作,终于赶在新中国70年华诞时刻,完成了国内首个运维领域的知识图谱——中文运维知识图谱COKG。
图2:COKG中文运维知识图谱模型
睿象云本次发布的“中文运维知识图谱”包含了30多万个实体、400万个实体关系,是目前中国运维领域首个公开发布的知识图谱。此举将传统基于浅层语义分析的信息服务范式提升到基于深层语义的知识服务。不仅在学术层面和商业层面有具有深刻意义,更是代表了新代智能化运维的基础设施业已建成。
图3:中文运维知识图谱实体示例
全景图谱深度挖掘 根因定位不是梦
COKG将不同IT事件的碎片化数据信息进行多维度整合,依托自动语义分析算法,能够收集企业内部的事件类数据(机器日志、告警等),IT配置信息(业务调用关系、CMDB等),和知识数据(故障手册、厂家文档、告警处理意见等)等三种IT运维数据。通过事件驱动发现异常事件,自动分析事件根因,并且各种事件均可溯源,方便企业探究问题根因,精准管控风险源头,做到标本兼治,消灭风险于萌芽。另外COKG可对企业IT系统进行秒级实时数据抓取和分析,对于未来可能发生的威胁及时预警,并结合解决方案智能推荐形成企业内部智能运维体系闭环,令企业的运维管理达到“运筹帷幄,决胜千里”。
图4:睿象云智能事件平台
此次发布的知识图谱更在交互方面具备了两个显著优势:
1. 表示方法对使用者友好
传统知识表示方法和描述语言需要运维工程师具备一定的专业知识和技能,非资深人群难以使用。COKG以实体和实体关系为基础的简洁表示形式,无论是专家还是入行小白都容易接受,这给以众包等方式编辑和构建知识提供了便利,为一线运维人员参与大规模知识构建提供了低认知成本的保证。
2. 表示方法对计算机友好,支持高效推理
推理是知识表示的重要目标,传统方法在进行知识推理时复杂度很高,难以快速有效地处理。COKG表示形式以图结构为基础,结合图论相关算法的前沿技术,利用对节点和路径的遍历搜索,可以有效提高推理效率,极大降低计算机处理成本。
除此之外,通过本次发布的运维知识图谱,AIOps算法的准确度也能得到相应的提升。以根因分析为例,在没有图谱的情况下,算法是完全没有任何知识储备的,它只能通过概率或者频率去区分事件之间是否存在关联关系。
而有了知识图谱之后,便可以把领域内的复杂知识通过信息抽取、数据挖掘、语义匹配语义计算、知识推理等过程精确地描述出来,并且可以描述知识的演化过程和发展规律,从而为研究和决策提供准确、可追踪、可解释、可推理的知识数据。在实际操作中,使用者只需要在建立好的图谱查找相关问题,便可快速提供解决方案,极大地增强了企业的决策能力。
结尾
从20世纪90年代开始,以统计机器学习为核心的人工智能技术逐步占据主流。进人新世纪,随着互联网的蓬勃发展,IT系统数据规模呈现爆炸式增长的趋势,IT事件类型也更加复杂多变。因此,这次COKG的发布,于整个运维界来说,也是一件十分具有里程碑意义的壮举。
知识图谱将是企业里面最重要的数据资产之一,睿象云也将持续努力,帮助企业更好的搭建出属于自己的AIOps平台。
想了解更多关于运维知识图谱的相关信息,欢迎登陆aiops.com,和我们一起探讨知识图谱的相关话题。
申请创业报道,分享创业好点子。点击此处,共同探讨创业新机遇!