用户工具

站点工具


service:techmag:201903_034:01

差别

这里会显示出您选择的修订版和当前版本之间的差别。

到此差别页面的链接

两侧同时换到之前的修订记录 前一修订版
后一修订版
前一修订版
service:techmag:201903_034:01 [2019/05/17 07:55]
-
service:techmag:201903_034:01 [2019/05/24 04:34] (当前版本)
-
行 1: 行 1:
 ====== 面向证券行业的智能运维模型及落地机制研究====== ====== 面向证券行业的智能运维模型及落地机制研究======
-本文选自[[service:​techmag:​201901_033:​start|《交易技术前沿》总第三十四期文章(2019年5月)]]+本文选自[[service:​techmag:​201903_034:​start|《交易技术前沿》总第三十四期文章(2019年3月)]]
 {{tag>​智能运维、离线智能分析、智能异常检测、智能异常预测}} {{tag>​智能运维、离线智能分析、智能异常检测、智能异常预测}}
 <WRAP centeralign>​ <WRAP centeralign>​
行 7: 行 7:
 **廖万里 屈文浩 肖飞 何鎏 /​珠海金智维信息科技有限公司**\\ **廖万里 屈文浩 肖飞 何鎏 /​珠海金智维信息科技有限公司**\\
 </​WRAP>​ </​WRAP>​
-**摘要:**随着人工智能、大数据等前沿技术的发展,传统运维业务也面临着变革,如何利用这些技术切实提升运维效率成为亟需考虑的问题。\\ +<WRAP centeralign>​ 
-本文基于目前运维领域普遍存在的业务痛点,研究智能运维在证券行业相关场景中的落地及实践,主要涉及根因分析、容量预测及智能知识库三个方面。通过自主设计智能化运维平台,实现了IT运维、大数据及AI算法的有机统一。\\ +  ==== ​摘要 ​==== 
-根因分析探索海量强关联监控预警信息,运用数据挖掘及算法分析技术,剖析问题根本原因所在;容量预测通过研究历史数据,利用AI模型算法,实现了容量信息的提前预警;而智能知识库结合传统知识库和AI算法的双重优势,实现了知识共享与解决方案的快速定位。以上三个场景的落地均切实提升了运维人员的工作效率,为打造智能型自动化运维奠定了基础。\\ +</​WRAP>​ 
-本文首次提出将改良的排序算法应用于根因分析,详细算法组成中根源影响速算得分和利用变更性质推导根源概率因子的做法,目前在国内论文上均未见提及,可供后续研究者开拓思路。\\+ 
 +  随着人工智能、大数据等前沿技术的发展,传统运维业务也面临着变革,如何利用这些技术切实提升运维效率成为亟需考虑的问题。\\ 
 +  本文基于目前运维领域普遍存在的业务痛点,研究智能运维在证券行业相关场景中的落地及实践,主要涉及根因分析、容量预测及智能知识库三个方面。通过自主设计智能化运维平台,实现了IT运维、大数据及AI算法的有机统一。\\ 
 +  根因分析探索海量强关联监控预警信息,运用数据挖掘及算法分析技术,剖析问题根本原因所在;容量预测通过研究历史数据,利用AI模型算法,实现了容量信息的提前预警;而智能知识库结合传统知识库和AI算法的双重优势,实现了知识共享与解决方案的快速定位。以上三个场景的落地均切实提升了运维人员的工作效率,为打造智能型自动化运维奠定了基础。\\ 
 +  本文首次提出将改良的排序算法应用于根因分析,详细算法组成中根源影响速算得分和利用变更性质推导根源概率因子的做法,目前在国内论文上均未见提及,可供后续研究者开拓思路。\\ 
 **关键字:**智能运维、证券行业、大数据、根因分析、容量预警、智能知识库\\ **关键字:**智能运维、证券行业、大数据、根因分析、容量预警、智能知识库\\
   ==== 1 引言 ====   ==== 1 引言 ====
行 32: 行 37:
 </​WRAP>​ </​WRAP>​
   智能运维的初始模型由Gartner提出,根据其理念,该模型是一个融合了人工智能、大数据等技术,通过构建相关平台,最终实现集监控、自动化、服务于一体的智能运维体系。而本文提出的智能运维模型也是基于其模型的改进,结合实际,初步规划了如图1所示的证券行业智能运维的通用模型。\\   智能运维的初始模型由Gartner提出,根据其理念,该模型是一个融合了人工智能、大数据等技术,通过构建相关平台,最终实现集监控、自动化、服务于一体的智能运维体系。而本文提出的智能运维模型也是基于其模型的改进,结合实际,初步规划了如图1所示的证券行业智能运维的通用模型。\\
-如图1所示,该模型是数据、算法、场景、服务的有机整合,以数据为核心,运用不同AI算法,落地具体场景并最终提供所需各类服务,结构上以由内而外的发散型结构为主,通过层层递进,最终利用服务实现价值输出。\\+  如图1所示,该模型是数据、算法、场景、服务的有机整合,以数据为核心,运用不同AI算法,落地具体场景并最终提供所需各类服务,结构上以由内而外的发散型结构为主,通过层层递进,最终利用服务实现价值输出。\\ 
 +  结合模型理念,在具体实施上,采用“运维数据总线+三大子平台”的“1+3”模式来构建智能运维平台。其中,三大子平台分别代表一体化运维平台、大数据平台及算法平台。一体化运维平台即传统的监管控一体化平台。大数据平台负责将运维数据以时间序列存储,主要提供海量运维数据的标注和快速访问能力。而算法平台主要完成算法的集成、训练及接口调用服务。设计框架上则采用了分层思想,具体可参见第二章的框架设计。\\
  
   ==== 2 智能运维平台框架设计 ====   ==== 2 智能运维平台框架设计 ====
-  结合模型理念,在具体实施上,采用“运维数据总线+三大子平台”的“1+3”模式来构建智能运维平台。其中,三大子平台分别代表一体化运维平台、大数据平台及算法平台。一体化运维平台即传统的监管控一体化平台。大数据平台负责将运维数据以时间序列存储,主要提供海量运维数据的标注和快速访问能力。而算法平台主要完成算法的集成、训练及接口调用服务。设计框架上则采用了分层思想,具体可参见第二章的框架设计。\\ 
  {{ :​service:​techmag:​201903_034:​图2_智能运维平台框架设计图.png|}}\\  {{ :​service:​techmag:​201903_034:​图2_智能运维平台框架设计图.png|}}\\
 <WRAP centeralign>​ <WRAP centeralign>​
行 73: 行 78:
   应用到本文系统,其原理是先通过白盒、黑盒和变更经验三种子算法分别计算出根因结果分值(子算法得分),如W1、W2.. WN,然后获取各分值与其对应加权因子Xi的乘积之和,最终得到总的排序值Y。\\   应用到本文系统,其原理是先通过白盒、黑盒和变更经验三种子算法分别计算出根因结果分值(子算法得分),如W1、W2.. WN,然后获取各分值与其对应加权因子Xi的乘积之和,最终得到总的排序值Y。\\
 相关排序分值公式如下:\\ 相关排序分值公式如下:\\
-根因排序值=[白盒]加权因子*[白盒]子算法得分+[黑盒]加权因子*[黑盒]子算法得分+[变更经验]加权因子*[变更经验]子算法得分\\+**__根因排序值=[白盒]加权因子*[白盒]子算法得分+[黑盒]加权因子*[黑盒]子算法得分+[变更经验]加权因子*[变更经验]子算法得分__**\\
   相较于传统算法仅关注于判断指标的对错,本文使用的排序算法更关注于根因指标的可能性评估,通过降序排列确保命中最有可能的几条根因数据,从而提高算法准确度。该算法在总框架建立后还可以随时增补新的子算法;或在子算法结果WN不变的情况下,通过调整各子算法加权因子XN来改进排序效果。\\   相较于传统算法仅关注于判断指标的对错,本文使用的排序算法更关注于根因指标的可能性评估,通过降序排列确保命中最有可能的几条根因数据,从而提高算法准确度。该算法在总框架建立后还可以随时增补新的子算法;或在子算法结果WN不变的情况下,通过调整各子算法加权因子XN来改进排序效果。\\
-  [白盒]子算法实现\\ +  √ **[白盒]子算法实现**\\ 
-  白盒算法的核心思路是研究告警在不同类型设备之间的传导次序:根据告警传导方向来决定对象摆放的层次(被传导者放于上层)。比如服务器出问题,会导致其上的数据库、中间件、程序发生次生错误/​告警;但是不会影响下面的网络设备,如图4所示。\\+  **白盒算法的核心思路是研究告警在不同类型设备之间的传导次序:**根据告警传导方向来决定对象摆放的层次(被传导者放于上层)。比如服务器出问题,会导致其上的数据库、中间件、程序发生次生错误/​告警;但是不会影响下面的网络设备,如图4所示。\\
 {{ :​service:​techmag:​201903_034:​图4_故障扩散方向示意图.png |}} {{ :​service:​techmag:​201903_034:​图4_故障扩散方向示意图.png |}}
 <WRAP centeralign>​ <WRAP centeralign>​
行 83: 行 88:
   **根据经验提炼【根源影响速算得分】用于无图速算:**伴随生产系统的不断变更,实际操作中很难针对各系统专门绘制并准确维护**如图4**所示的故障扩散方向示意图,因此必须考虑在无图情况下进行分析的速算方法。通过统计机房设备告警传导顺序并对结果进行排序,得出如**表1**所示速算得分表,其中分值越低表示越容易被影响,在并发告警后要优先处理速算得分高的设备告警。\\   **根据经验提炼【根源影响速算得分】用于无图速算:**伴随生产系统的不断变更,实际操作中很难针对各系统专门绘制并准确维护**如图4**所示的故障扩散方向示意图,因此必须考虑在无图情况下进行分析的速算方法。通过统计机房设备告警传导顺序并对结果进行排序,得出如**表1**所示速算得分表,其中分值越低表示越容易被影响,在并发告警后要优先处理速算得分高的设备告警。\\
  
-{{ :​service:​techmag:​201903_034:​表1_设备速算得分表.png |}}+{{ :​service:​techmag:​201903_034:​1.png |}}
 <WRAP centeralign>​ <WRAP centeralign>​
 表1 设备速算得分表 表1 设备速算得分表
行 92: 行 97:
   根据上述公式可以得出各类配置项告警后排错的先后顺序,但对同一个配置项内部并发告警的关联影响尚无法涉及。这就需要[黑盒]算法来弥补。\\   根据上述公式可以得出各类配置项告警后排错的先后顺序,但对同一个配置项内部并发告警的关联影响尚无法涉及。这就需要[黑盒]算法来弥补。\\
  
-  [黑盒]子算法实现\\+  **√ [黑盒]子算法实现**\\
   黑盒算法的原理是利用CNN卷积算法,从大量历史并发告警事件和根因告警事件的对应关系样本中,学习并发告警及根因告警事件之间的关联关系,从而生成相关度分析模型,最终用以预测生产告警事件中的根因告警事件。\\   黑盒算法的原理是利用CNN卷积算法,从大量历史并发告警事件和根因告警事件的对应关系样本中,学习并发告警及根因告警事件之间的关联关系,从而生成相关度分析模型,最终用以预测生产告警事件中的根因告警事件。\\
   该算法先将首次发生时间间隔不超过【2*指标最大监控采集间隔】的告警分为同一组;比如指标每10秒采集一次,则首次告警间隔不超过20秒的为一组。然后采用CNN卷积算法对相关数据进行训练,最后以事务组为样本单位展开分析,对各组内的并发告警给出具体某项告警是根源告警的分析结果。\\   该算法先将首次发生时间间隔不超过【2*指标最大监控采集间隔】的告警分为同一组;比如指标每10秒采集一次,则首次告警间隔不超过20秒的为一组。然后采用CNN卷积算法对相关数据进行训练,最后以事务组为样本单位展开分析,对各组内的并发告警给出具体某项告警是根源告警的分析结果。\\
行 101: 行 106:
   备注:根源常量设计选择范围为1到10,目前根据经验数据取值为8,目的是为了提升通过黑盒算法所确定的对应指标分值,令其值域范围能落到白盒算法结果的输出象限区间[1,​10]之内。\\   备注:根源常量设计选择范围为1到10,目前根据经验数据取值为8,目的是为了提升通过黑盒算法所确定的对应指标分值,令其值域范围能落到白盒算法结果的输出象限区间[1,​10]之内。\\
   目前,[黑盒算法]最大的局限性在于训练结果只能给出一个根源结果,若当前系统确实存在多个告警,且相互并不存在主次关系时,算法容易误报。但考虑到多个告警同时出现错误的概率极小,则在这种情况下即使存在100%误报,也不会大幅度降低单一错误下根源分析的准确度,因此可以忽略不计。\\   目前,[黑盒算法]最大的局限性在于训练结果只能给出一个根源结果,若当前系统确实存在多个告警,且相互并不存在主次关系时,算法容易误报。但考虑到多个告警同时出现错误的概率极小,则在这种情况下即使存在100%误报,也不会大幅度降低单一错误下根源分析的准确度,因此可以忽略不计。\\
-  **[变更经验]子算法实现**\\+  **[变更经验]子算法实现**\\
   通常生产环境告警,运维人员的第一反应就是询问是否有过变更;根据ITIL标准维护组织(英国商务部OGC)发布的统计数据,80%的IT运维事故源自变更,而经验算法的原理就是以近期变更数据为依据来寻找告警根源设备。\\   通常生产环境告警,运维人员的第一反应就是询问是否有过变更;根据ITIL标准维护组织(英国商务部OGC)发布的统计数据,80%的IT运维事故源自变更,而经验算法的原理就是以近期变更数据为依据来寻找告警根源设备。\\
   1、**“近期发生变更的设备出错的可能性更高”是经验算法的核心思路:**即从ITIL系统中查找各类设备是否最近发生过变更,若发生变更,则返回高分值,若无变更,则返回低分值。\\   1、**“近期发生变更的设备出错的可能性更高”是经验算法的核心思路:**即从ITIL系统中查找各类设备是否最近发生过变更,若发生变更,则返回高分值,若无变更,则返回低分值。\\
行 129: 行 134:
   系统开发完毕后,通过将生产环境集中监控系统从2017年10月至2018年9月的94719条历史告警导入模型,逐一检查分析结果,统计信息如下:\\   系统开发完毕后,通过将生产环境集中监控系统从2017年10月至2018年9月的94719条历史告警导入模型,逐一检查分析结果,统计信息如下:\\
 {{:​service:​techmag:​201903_034:​3.1.5系统名称.png |}} {{:​service:​techmag:​201903_034:​3.1.5系统名称.png |}}
-  备注:+  备注:\\
   1. **[命中]**指系统对告警分组正确且根源排序前3条数据即为真实根源告警。\\   1. **[命中]**指系统对告警分组正确且根源排序前3条数据即为真实根源告警。\\
   2. 这里A系统、B系统、C系统为生产系统的脱敏表述。\\   2. 这里A系统、B系统、C系统为生产系统的脱敏表述。\\
行 155: 行 160:
 </​WRAP>​ </​WRAP>​
  
-  如图7所示,可以看到系统准确揭示了下列故障根源:\\ +如图7所示,可以看到系统准确揭示了下列故障根源:\\ 
-  1. 这里的5条告警分别处于4个不同的时间窗口。\\ +1.这里的5条告警分别处于4个不同的时间窗口。\\ 
-  2. 第①②条是关于Oracle JDBC的连接状态在不同时间内发生异常的告警,根因是数据库本身。\\ +2.第①②条是关于Oracle JDBC的连接状态在不同时间内发生异常的告警,根因是数据库本身。\\ 
-  3. 第③条是由于Linux内存写入所引起的CPU占用过高,根因是内存写入(加权得分4.9)。第④⑤条是Linux CPU占用过高,根因是操作系统本身。\\+3.第③条是由于Linux内存写入所引起的CPU占用过高,根因是内存写入(加权得分4.9)。第④⑤条是Linux CPU占用过高,根因是操作系统本身。\\
  
   === 3.1.6 小结 ===   === 3.1.6 小结 ===
行 172: 行 177:
   其中利用爬虫技术获取的信息来源于微软、Apache、Red Hat、IBM、联想等IT产品厂商的官方问答、知识库、社区、论坛等网站。同时,为了提高基础知识条目的数据质量,抓取过程中也使用SVM算法对爬取数据进行了分类筛选,通过建立样本库,配置相关参数形成所需的训练集和测试集。\\   其中利用爬虫技术获取的信息来源于微软、Apache、Red Hat、IBM、联想等IT产品厂商的官方问答、知识库、社区、论坛等网站。同时,为了提高基础知识条目的数据质量,抓取过程中也使用SVM算法对爬取数据进行了分类筛选,通过建立样本库,配置相关参数形成所需的训练集和测试集。\\
   SVM运维数据筛选分类器各项指标如下:\\   SVM运维数据筛选分类器各项指标如下:\\
-类型 微观准确率 准确率 召回率 F1 值 + 
-训练 0.867052023 0.874174917 0.864257028 0.865597028 +|类型 |微观准确率 |准确率         |召回率         |F1 值       | 
-测试 0.815028902 0.821734328 0.811914324 0.812770563+|训练 |0.867052023 |0.874174917 |0.864257028 |0.865597028 ​| 
 +|测试 |0.815028902 |0.821734328 |0.811914324 |0.812770563 ​|
  
   备注:​F1值为模型筛选精准率和召回率的调和平均值,F1值越高代表模型的数据过滤能力越强。\\   备注:​F1值为模型筛选精准率和召回率的调和平均值,F1值越高代表模型的数据过滤能力越强。\\
   数据抓取系统采集30多万条互联网数据,在使用SVM运维数据筛选分类器过滤后剩余有效数据131382条,数据质量方面以官网问答及官网知识库为最优。爬取的具体信息如下表所示:\\   数据抓取系统采集30多万条互联网数据,在使用SVM运维数据筛选分类器过滤后剩余有效数据131382条,数据质量方面以官网问答及官网知识库为最优。爬取的具体信息如下表所示:\\
-厂商 采集方式 主要方向 采集数量 +{{ :​service:​techmag:​201903_034:​3.23_表格.png |}}\\
-微软 官网社区 Windows Server SQL Server 16577 +
-Red Hat 论坛 Red Hat Centos 2030 +
-IBM 官网知识库 AIX WebSphere DB2 60135 +
-Apache 官网问答 Apache Tomcat 88 +
-联想 官网知识库 服务器 949 +
-VMWARE 官网社区 虚拟机 1432 +
-戴尔 官网社区 服务器 8212 +
-华三 官网知识库 网络 4102 +
-思科 官网问答 网络 11037 +
-华为 官网知识库 网络 19446 +
-锐捷 官网问答 网络 5438 +
-深信服 官网知识库 网络 1936+
   行业知识主要来自于各业务系统运维管理知识的长期积累,目前合计录入系统10000多条。\\   行业知识主要来自于各业务系统运维管理知识的长期积累,目前合计录入系统10000多条。\\
  
-3.2.4 模型及数据处理 +  ===3.2.4 模型及数据处理 ​=== 
-智能问答系统的构建过程是将优质的运维问答数据导入图结构思考模型从而提供问答服务。同时智能问答系统还能通过交互反馈信息不断优化运维问答模型。 +  智能问答系统的构建过程是将优质的运维问答数据导入图结构思考模型从而提供问答服务。同时智能问答系统还能通过交互反馈信息不断优化运维问答模型。\\ 
-运维问答数据分类模型的构建过程如图8所示: +  运维问答数据分类模型的构建过程如图8所示:\\ 
- +{{ :​service:​techmag:​201903_034:​图8_问答数据分类模型图.png |}} 
 +<WRAP centeralign>​
 图8 问答数据分类模型图 图8 问答数据分类模型图
-如图8,​在抓取了相关数据并形成训练集和测试集后,由于该类信息仅能提供基础运维知识,尚不满足实现智能问答所需的要求,因此还需对数据做进一步处理,包括信息过滤及特征提取。通过问答数据分类模型进行预处理的优质运维问答数据,将进一步导入图结构思考模型并最终实现智能问答。 +</​WRAP>​ 
-数据预处理-特征提取 +  如图8,​在抓取了相关数据并形成训练集和测试集后,由于该类信息仅能提供基础运维知识,尚不满足实现智能问答所需的要求,因此还需对数据做进一步处理,包括信息过滤及特征提取。通过问答数据分类模型进行预处理的优质运维问答数据,将进一步导入图结构思考模型并最终实现智能问答。\\ 
-本文基于以下自然语言特征实现运维问答数据特征向量提取,主要包括: +**__数据预处理-特征提取__**\\ 
-1)疑问词提取 +  本文基于以下自然语言特征实现运维问答数据特征向量提取,主要包括:\\ 
-2)核心关键词的主要义原提取 +  1)疑问词提取\\ 
-3)问句主谓宾的主要义原提取 +  2)核心关键词的主要义原提取\\ 
-4)命名实体的提取 +  3)问句主谓宾的主要义原提取\\ 
-5)单(复)数提取 +  4)命名实体的提取\\ 
-考虑到运维问答数据都是在特定运维场景下产生的,可以在其特征向量中加入自然语言依存关系,而依存关系则通过中文分词、词性标注及语法分析构建。+  5)单(复)数提取\\ 
 +  考虑到运维问答数据都是在特定运维场景下产生的,可以在其特征向量中加入自然语言依存关系,而依存关系则通过中文分词、词性标注及语法分析构建。\\
  
-举例说明: +**__举例说明:__**\\ 
-如: Linux系统运行的 http 服务程序nginx无法启动,怎么处理? +**__如: Linux系统运行的 http 服务程序nginx无法启动,怎么处理?__**\\ 
-分词和词性标注结果为:Linux/​ws 系统/n 运行/v 的/u http/ws 服务/v 程序/n nginx/v 无法/v 启动/v 怎么/r 处理/v ?/wp +  分词和词性标注结果为:Linux/​ws 系统/n 运行/v 的/u http/ws 服务/v 程序/n nginx/v 无法/v 启动/v 怎么/r 处理/v ?/wp\\ 
-1通过依存关系分析,​句中“nginx”有2个限制性定语:​“Linux系统运行 的”,“ http 服务程序”。识别出这种长距离依赖关系后,​可准确定位问句中心“nginx”及长距离的约束条件。 +(1)通过依存关系分析,​句中“nginx”有2个限制性定语:​“Linux系统运行 的”,“ http 服务程序”。识别出这种长距离依赖关系后,​可准确定位问句中心“nginx”及长距离的约束条件。\\ 
-(2)依存关系能体现限定性疑问词所限定的名词成分,​这对问句分类具有重要指示作用。 +(2)依存关系能体现限定性疑问词所限定的名词成分,​这对问句分类具有重要指示作用。\\ 
-(3)命名实体识别结合依存关系分析在问题分类中能加强分类特征的辨识度。 +(3)命名实体识别结合依存关系分析在问题分类中能加强分类特征的辨识度。\\ 
-本文基于以上特征提取方法,利用人工挑选的问答数据训练集和测试集,使用SVM算法训练问答数据分类模型。 +  本文基于以上特征提取方法,利用人工挑选的问答数据训练集和测试集,使用SVM算法训练问答数据分类模型。\\ 
-运维问答数据分类模型各项指标如下所示: +  运维问答数据分类模型各项指标如下所示:\\ 
-类型 微观准确率 准确率 召回率 F1 值 +{{ :​service:​techmag:​201903_034:​3.2.4_表1.png |}}
-训练 0.820809249 0.82659516 0.81793842 0.818848168 +
-测试 0.765060241 0.783279221 0.754633007 0.7553935088978728 +
-使用运维问答数据分类模型从13万运维知识数据中提取运维问答数据53259个,详细情况如下: +
-厂商 产品名(方向) 源样本量 问答数据 +
-微软 Windows server SQL Server 16577 12451 +
-Red Hat Red Hat CentOS 2030 605 +
-IBM AIX WebSphere DB2 60135 2389 +
-Apache Apache Tomcat 88 88 +
-联想 服务器 949 572 +
-VMWARE 虚拟机 1432 1102 +
-戴尔 服务器 8212 4348 +
-华三 网络 4102 1895 +
-思科 网络 11037 8943 +
-华为 网络 19446 14632 +
-锐捷 网络 5438 4751 +
-深信服 网络 1936 1483 +
-3.2.5 落地效果 +
-在知识库查询界面采用会话式问答,实现了基础运维问题的解答及基本运维工作的自动化。具体案例效果如下: +
-1) 运维知识问答 +
-在智能问答模块的图结构思考模型中训练了5万多个运维相关问题,在交互界面中,可以回答相应的运维问题,快速提供解决方案。具体效果如下所示: +
- +
  
-2) 运维操作执行 +  使用运维问答数据分类模型从13万运维知识数据中提取运维问答数据53259个,详细情况如下:\\ 
-在智能问答模块中集成了运维操作接口,允许用户使用自然语言交互完成系统基础管理操作。如:输入“关闭+IP”的指令可进行远程关机操作,而通过输入“关机结果”可查询对应IP服务器的关机情况。 +{{ :​service:​techmag:​201903_034:​3.2.4_表2.png |}} 
-  + 
-3) 告警处理 +  ===3.2.5 落地效果 === 
-在智能问答模块中集成了事件平台接口及工作流管理系统,方便客户查询系统状态,并基于运维知识决定是否创建管理任务。 + 
-  +  在知识库查询界面采用会话式问答,实现了基础运维问题的解答及基本运维工作的自动化。具体案例效果如下:\\ 
-3.2.6 小结 +1) 运维知识问答\\ 
-在知识分析场景中,系统累计承载知识条目达到140000余条;通过跟踪用户搜索行为并进行统计,平均三次搜索即可命中有效知识的概率达到87%左右,而用户对知识整体质量的评价得分为4.27分左右(满分5分),基本符合预期。 +  在智能问答模块的图结构思考模型中训练了5万多个运维相关问题,在交互界面中,可以回答相应的运维问题,快速提供解决方案。具体效果如下所示:\\ 
-3.3 容量预警场景实践 +{{ :​service:​techmag:​201903_034:​运维知识问答.png |}}  
-3.3.1 背景概述 + 
-容量预警场景的实践,目前主要针对的是证券行业的核心应用系统“网上交易系统”,对其使用相关模型并进行了算法训练。 +2) 运维操作执行\\ 
-    本文中我们使用的网上交易系统容量指标包含三个维度,分别是:QPS(每秒业务请求数)、CPU利用率、MEM内存使用量。 +  在智能问答模块中集成了运维操作接口,允许用户使用自然语言交互完成系统基础管理操作。如:输入“关闭+IP”的指令可进行远程关机操作,而通过输入“关机结果”可查询对应IP服务器的关机情况。\\ 
-3.3.2 算法实现 +{{ :​service:​techmag:​201903_034:​运维知识执行.png |}} 
-本文所解决的“预测”,是指通过历史数据得到关于未来的一些估算值,然后用概率统计方法定量地建立一个合适的数学模型。根据这个模型对相应时间序列所反映的过程或系统做出数据预报,同时给出合适的置信区间和置信度。根据观测到的序列数据特征,可使用指数平滑法或ARIMA模型等算法。 + 
-3.3.3 数据准备 +3) 告警处理\\ 
-数据准备工作主要包括数据采集及清洗,一般通过系统日志、运维平台等渠道获取选定的指标数据信息。通常使用的均为历史数据,而采集频率则设置到分钟。针对有异常值、数据缺失等问题的数据也做了必要的梳理和补充。 +  在智能问答模块中集成了事件平台接口及工作流管理系统,方便客户查询系统状态,并基于运维知识决定是否创建管理任务。\\ 
-3.3.4 模型及数据处理 + {{ :​service:​techmag:​201903_034:​告警处理.png |}} 
-在本文系统落地过程中,使用了三次指数平滑法(Holt-Winters)。置信区间置信度设置为95%。将获取的样本数据前2/​3天数的数据作为训练集,采用三次指数平均法(Holt-Winters方法),进行容量预测模型训练。后1/​3天数的数据作为测试集,来对预测模型进行测试评估。测试评估结果采用MAPE (Mean Absolute Percent Error)指标衡量。 + 
-3.3.5 落地效果 +  ===3.2.6 小结 ​=== 
-以下为网上交易系统各容量指标预测值(黄线)和真实值(蓝线)的表现数据。可以看到,无论是QPS、CPU利用率还是内存使用量,预测值与真实值之间的吻合程度均较高。 +  在知识分析场景中,系统累计承载知识条目达到140000余条;通过跟踪用户搜索行为并进行统计,平均三次搜索即可命中有效知识的概率达到87%左右,而用户对知识整体质量的评价得分为4.27分左右(满分5分),基本符合预期。\\ 
-1. QPS指标预测图(MAPE=2.237) + 
-  +  ==== ​3.3 容量预警场景实践 ​==== 
-2. CPU利用率指标预测图(MAPE=2.383) +  ===3.3.1 背景概述 ​=== 
-  +  容量预警场景的实践,目前主要针对的是证券行业的核心应用系统“网上交易系统”,对其使用相关模型并进行了算法训练。\\ 
-3. 内存使用量指标预测图(MAPE=2.176) +  本文中我们使用的网上交易系统容量指标包含三个维度,分别是:QPS(每秒业务请求数)、CPU利用率、MEM内存使用量。\\ 
-  +  ===3.3.2 算法实现 ​=== 
-在上述预测算法的基础上,我们可以形成多级告警算法:当出现预测的置信区上限(或下限),高于(或低于)容量预警阈值时,即可产生告警。在实践中,根据预测时间段内出现告警的频率,可设置一级预警(黄色预警)、二级预警(红色预警)并采取相应的预置扩容措施。 +  本文所解决的“预测”,是指通过历史数据得到关于未来的一些估算值,然后用概率统计方法定量地建立一个合适的数学模型。根据这个模型对相应时间序列所反映的过程或系统做出数据预报,同时给出合适的置信区间和置信度。根据观测到的序列数据特征,可使用指数平滑法或ARIMA模型等算法。\\ 
-3.3.6 小结 +  ===3.3.3 数据准备 ​=== 
-在容量预测场景中,指标数据的来源主要基于网上交易和资金管理系统。经过统计,选取的三个维度指标的预测值和真实值吻合程度均较高,其平均绝对百分比误差MAPE也在预期范围内,​可以为系统负载情况预先提供指导信息。 +  数据准备工作主要包括数据采集及清洗,一般通过系统日志、运维平台等渠道获取选定的指标数据信息。通常使用的均为历史数据,而采集频率则设置到分钟。针对有异常值、数据缺失等问题的数据也做了必要的梳理和补充。\\ 
-4 总结 +  ===3.3.4 模型及数据处理 ​=== 
-本文基于证券行业运维领域存在的业务痛点,应用大数据、人工智能的相关理论,自主设计智能化运维平台,并以此为基础,探索智能运维在证券行业三个典型运维场景的落地与实践。 +  在本文系统落地过程中,使用了三次指数平滑法(Holt-Winters)。置信区间置信度设置为95%。将获取的样本数据前2/​3天数的数据作为训练集,采用三次指数平均法(Holt-Winters方法),进行容量预测模型训练。后1/​3天数的数据作为测试集,来对预测模型进行测试评估。测试评估结果采用MAPE (Mean Absolute Percent Error)指标衡量。\\ 
-在三个场景中,对于根因分析,​应用了改良的排序算法,​通过实践证明,​有着较高的命中率。但不足之处在于,对系统内同一时间发生且相互无关的并发告警,存在误报的可能性。智能知识库在数据完备的特定场景表现满意,但考虑到数据质量不佳,数据覆盖面不够等问题,还不能全面囊括各个运维场景。而容量预测场景中采用的模型则对样本质量和数量要求较高。 +  ===3.3.5 落地效果 ​=== 
-本文相关架构模型、技术和算法选型可以为证券行业智能运维系统设计提供参考。文中选用的三个场景都是运维工作中目前广泛被关注的领域,可以为同业系统建设开辟思路,为进一步探索其他应用场景的落地及实践提供了宝贵的经验。 +  以下为网上交易系统各容量指标预测值(黄线)和真实值(蓝线)的表现数据。可以看到,无论是QPS、CPU利用率还是内存使用量,预测值与真实值之间的吻合程度均较高。\\ 
-5 参考文献 +1. QPS指标预测图(MAPE=2.237)\\ 
-[1]黄荣怀、李茂国、沙景荣,2004,《知识工程学:一个新的重要研究领域》 +{{ :​service:​techmag:​201903_034:​1.qps指标预测图_mape_2.237_.png |}} 
-[2]刘俊、彭冬、朱伟等,2018,《智能运维:从0搭建大规模分布式AIOps系统》,电子工业出版社 +2. CPU利用率指标预测图(MAPE=2.383)\\ 
-[3] 林莉,2011,《智能化网络运维管理平台的研究与实现》 +{{ :​service:​techmag:​201903_034:​2.cpu利用率指标预测图_mape_2.383_.png |}} 
-[4]王博(百度运维部),2017,《百度大规模时序指标自动异常检测实战》,CNUTCon全球容器技术大会 +3. 内存使用量指标预测图(MAPE=2.176)\\ 
-[5]王晓东、许乐、、张晨曦,2009,《一种基于ITIL的IT运维中心模型设计》 +{{ :​service:​techmag:​201903_034:​3.内存使用量指标预测图_mape_2.176_.png |}} 
-[6]王肇刚(梓弋),2018,《AIOps智能告警管理在阿里巴巴集团的成功实践》,云栖大会 + 
-[7]J. D. Cryer and K. S. Chan, 2008,“Time Series Analysis with With Applications in R(Second Edition): Springer” +  在上述预测算法的基础上,我们可以形成多级告警算法:当出现预测的置信区上限(或下限),高于(或低于)容量预警阈值时,即可产生告警。在实践中,根据预测时间段内出现告警的频率,可设置一级预警(黄色预警)、二级预警(红色预警)并采取相应的预置扩容措施。\\ 
-[8]NASCIO: National Association of State Chief Information Officers,2005, “IT Management Frameworks: A Foundation for Success”  +  ===3.3.6 小结 ​=== 
-[9]OGC:Office Government Commerce,2007,“IT Infrastructure Library Version3 Framework” +  在容量预测场景中,指标数据的来源主要基于网上交易和资金管理系统。经过统计,选取的三个维度指标的预测值和真实值吻合程度均较高,其平均绝对百分比误差MAPE也在预期范围内,​可以为系统负载情况预先提供指导信息。\\ 
-[10]TcpRT,2018,“Instrument and Diagnostic Analysis System for Service Quality of Cloud Databases at Massive Scale in Real-time”+ 
 +  ==== ​4 总结 ​==== 
 +  本文基于证券行业运维领域存在的业务痛点,应用大数据、人工智能的相关理论,自主设计智能化运维平台,并以此为基础,探索智能运维在证券行业三个典型运维场景的落地与实践。\\ 
 +  在三个场景中,对于根因分析,​应用了改良的排序算法,​通过实践证明,​有着较高的命中率。但不足之处在于,对系统内同一时间发生且相互无关的并发告警,存在误报的可能性。智能知识库在数据完备的特定场景表现满意,但考虑到数据质量不佳,数据覆盖面不够等问题,还不能全面囊括各个运维场景。而容量预测场景中采用的模型则对样本质量和数量要求较高。\\ 
 +  本文相关架构模型、技术和算法选型可以为证券行业智能运维系统设计提供参考。文中选用的三个场景都是运维工作中目前广泛被关注的领域,可以为同业系统建设开辟思路,为进一步探索其他应用场景的落地及实践提供了宝贵的经验。\\ 
 +  ====5 参考文献 ​==== 
 +[1]黄荣怀、李茂国、沙景荣,2004,《知识工程学:一个新的重要研究领域》\\ 
 +[2]刘俊、彭冬、朱伟等,2018,《智能运维:从0搭建大规模分布式AIOps系统》,电子工业出版社\\ 
 +[3] 林莉,2011,《智能化网络运维管理平台的研究与实现》\\ 
 +[4]王博(百度运维部),2017,《百度大规模时序指标自动异常检测实战》,CNUTCon全球容器技术大会\\ 
 +[5]王晓东、许乐、、张晨曦,2009,《一种基于ITIL的IT运维中心模型设计》\\ 
 +[6]王肇刚(梓弋),2018,《AIOps智能告警管理在阿里巴巴集团的成功实践》,云栖大会\\ 
 +[7]J. D. Cryer and K. S. Chan, 2008,“Time Series Analysis with With Applications in R(Second Edition): Springer”\\ 
 +[8]NASCIO: National Association of State Chief Information Officers,2005, “IT Management Frameworks: A Foundation for Success” ​\\ 
 +[9]OGC:Office Government Commerce,2007,“IT Infrastructure Library Version3 Framework”\\ 
 +[10]TcpRT,2018,“Instrument and Diagnostic Analysis System for Service Quality of Cloud Databases at Massive Scale in Real-time”\\
  
  
阅读
service/techmag/201903_034/01.1558079713.txt.gz · 最后更改: 2019/05/17 07:55 由 -