案例 | “云+AI”智能融合,助力运维转型“加速度”
创始人
2024-01-08 10:54:00
0

原标题:案例 | “云+AI”智能融合,助力运维转型“加速度”

文 / 江西省农村信用社联合社 邓毓 邓建星

随着业务规模不断增大,业务系统架构快速更新迭代,业务上云步伐持续推进,云上环境和云下传统环境运维监控面临新的挑战。一方面,云上业务无法实现精准有效的业务级监控,云上云下业务监控数据也难以在统一视角下,实现全链路业务关联监控分析。同时,各监控节点的业务、应用与网络指标也无法实现深度融合和统一展现,实现全链路指标关联监控分析;另一方面,采用传统的阈值监测方式,在当前海量、多维度的监控指标数据情况下,难以充分挖掘数据价值,从而提升异常检测和快速定位的能力。

江西农信迫切需要有效手段,能够对关键业务系统性能进行深度管理和监控,覆盖云上专有云和云下传统环境,敏捷应对业务变化,真正做到端到端的业务交易性能监控与分析。

实现目标

通过智能化“云+AI”运维建设,实现以下目标。

1.全链路业务可观测性。通过端到端、全链路监控,实现物理服务器、重要防火墙、负载均衡、云下虚拟机实例、云上ECS实例等不同环境下的全链路业务监控保障,实时感知业务变化,统一业务性能观测视角,提高问题发现和定位的效率;通过微探针引流的方式,将云环境中的网络数据进行全量采集、解码分析与处理,通过分析网络指标和业务指标,构建对云网环境的全景、立体式监测,保障云上业务连续性、保障新业务上云。

2.智能化AI诊断分析。通过AI算法学习,实现自动化学习阈值、自动调参,自动、实时、提前、准确地从海量数据中发现异常隐患,提高告警的精度,大幅降低人工配置成本。通过配置关系、专家经验、历史规律、指标数据确定故障的范围,识别表现异常的系统、交易等,基于配置关系、历史规律,实现AI智能关联分析,锁定故障根源。

方案及技术

根据我行现有的实际情况,一方面首先需要实现云上云下流量的采集和管理,实现应用层和网络层指标立体化监控;另一方面将部分重要业务系统进行多维度精细化分析,针对交易类型、交易渠道、机构、返回码等多个维度进行指标分析,让指标数据更具价值。

1.全链路流量采集。如图1所示,全链路业务性能监控平台通过对网络流量的采集和解码,提供业务层的监控分析功能,对于业务运维必不可少。通过建立云上云下业务全链路的可观测性,基于服务水平、可用性、异常事件、紧急事件、TCP连接等类型的告警,做到智能故障定位。实现监控零侵入、零风险、高精度、高实时。

图1 全链路业务性能监控架构

一是传统环境流量采集。传统环境网络流量的采集,采用交换机镜像的方式,做到零风险、高实时、可信等特点。传统环境的网络流量,均会通过物理交换机,所以在物理交换机上,可以捕获到完整的东西向、南北向网络流量,且物理交换机的镜像功能是一个存在数十年的成熟技术,硬件级处理,零风险。

二是云上流量采集。对云上的重要业务系统,通过在ECS中部署微探针,进行业务流量采集,如图2所示,由CPM对所有微探针进行集中控制,微探针采集的流量采用Vxlan/GRE隧道的方式,发送给监控服务平台和vTAP平台,vTAP平台作为云内流量池,可将云内流量一对多地复制给其他消费方。

图2 云上流量采集架构

2.智能化数据分析。本次项目中,分批获取了服务器接入层交换机、大二层交换机、外联、互联网、DMZ等各个区域交换机的流量。根据项目需求,将分两种方式进行独立的数据解析。

一是在对云环境和传统环境的网络流量进行捕获之后,在原有的采集设备上,对流量进行全量解码。原始流量是以01的二进制方式存在,如需要对流量数据进行使用,数据包解码是最为关键的一步。在本项目中,数据包的解码不仅仅停留在TCP/IP通用包头的解析上,还对报文的全量业务字段进行了深度解析,例如金额、流水号、账号、交易类型等等关键字段。

二是搭建大数据处理平台,对解码后的报文,以流量输出的方式,进行二次分析。对业务性能重要数据指标数据,如交易量、响应率、响应时间、成功率等数据,进行算法指标异常检测,建设业务指标异常检测和根因定位算法引擎,实现的算法包括变分自编码器、渐进梯度回归树、差分指数滑动平均、极值理论、周期性中值检测、 LightGBM、蒙特卡洛搜索树等。当业务指标出现异常波动,或者出现劣化迹象时,自动触发故障根因定位功能,从故障业务系统异常时间段的大量交易明细中,分多种属性维度统计后进行异常检测,并且根据候选根因集的指标变换率和包含关系等进行排序,最终确定异常根因。

数据融合处理

智能化运维监控项目的建设将云上与云下流量、网络与应用、应用与业务等数据进行融合,通过智能化深度分析,实现统一视角,全链路监控分析。

1.云上云下流量融合。从传统环境到云环境,数据采集的难度大幅上升。一笔交易的流转,会经过云上云下各个环节,在进行故障分析时,采集数据和手段的不一致、指标口径不一致、数据时间戳不一致等问题,都会对故障发现和定位带来影响。

一是云上云下网络流量数据的汇聚。首先我们通过微探针来采集每个ECS的流量,并将流量统一汇聚至vTAP,由vTAP来完成云网流量的汇聚;传统环境的流量采集,通过网络交换机镜像功能,将镜像流量汇聚至物理TAP设备,物理TAP设备完成传统环境流量的汇聚;然后vTAP的流量,全量转发至物理TAP,由物理TAP设备完成云上云下流量的汇聚,由vTAP和物理TAP共同组建了流量池。

二是云下数据包统一时间戳。本项目由业务性能监控集群统一对数据包打上纳秒级时间戳,确保交易响应时间、网络延迟等关键指标的精度和准确性。

2.网络与应用、业务性能指标融合。本次项目汇聚多节点网络数据源进行网络指标计算和业务应用性能指标计算。当某个渠道的交易发生问题时,业务性能指标能快速定位到交易响应慢的节点,系统能根据组件级别的网络性能指标,快速、自动判断网络通信是否有问题。例如是否由于流量大导致拥塞、网络链路质量差导致丢包、网络延迟高、TCP连接问题等,这一切网络指标,都会自动关联到业务链路中的具体IP节点,从而实现从业务的视角观测网络,解决了以往运维中网络性能分析和业务应用性能分析视角不一致的问题。

3.应用与业务指标深度解析。基于智能运维算法,提供时序数据管道和持久化,通过对业务性能黄金指标数据,如成功率、交易量、响应率、响应时间等具备时间间隔固定,有时序规律或周期性特点,并且可以反映业务系统健康度的指标数据,自动提取多种曲线特征,自动选择最优算法,利用聚类算法缩减训练开销,进行实时异常检测,识别业务指标趋势的反常变化,及早发现问题风险,缩短故障发现和恢复时间。

建设成效

智能化“云+AI”监控运维平台自上线以来,在提升系统可用性方面成效显著,发现诸多潜在异常和风险点,切实提升系统连续运行能力,有效降低运维成本。

1.全行端到端业务监控覆盖。通过项目的建设,覆盖传统环境和云环境重要应用节点,建立云上云下业务全路径流量数据的全面采集、集中处理、统一观测,保障业务连续性、保障业务上云。

2.网络与业务指标融合。将故障分析定位范围扩大到了网络层,统一了业务应用和网络运维的监控视角。自动关联业务层和网络层指标进行告警成因分析,判断问题出在应用层还是网络层,并存储和举证原始故障数据的交互过程。

3.基于AI智能化告警。为在大量数据中及时准确发现存在问题,传统业务指标和机器指标监控需要人工设定固定阈值,等指标值达到设定的阈值才会报警。自研指标异常检测算法既能省去固定、海量阈值的设定工作,又能适应现实数据的复杂状况,给出精准的报警效果,减少漏报误报。

4.业务指标多维根因定位。在复杂业务及海量数据中精准定位问题根因,为问题排障争取时间,为服务连续性提供保障,提升运维效率和节约运维成本。

相关内容

热门资讯

智邦光学取得一种镜片成型模具专... 金融界2025年7月18日消息,国家知识产权局信息显示,江西智邦光学有限公司取得一项名为“一种镜片成...
江苏方硕取得装配式静音通风管道... 金融界2025年7月18日消息,国家知识产权局信息显示,江苏方硕环境科技有限公司取得一项名为“一种装...
原创 “... 命运的转折:一张照片引发的蝴蝶效应 2015年,江西严辉村村民用诺基亚手机拍下一张照片:8岁的范小...
十沣科技申请轨道交通装备流固耦... 金融界2025年7月18日消息,国家知识产权局信息显示,北京十沣科技有限公司申请一项名为“一种轨道交...
思必驰AI技术重塑教学智能化体... 在教育数字化、智能化转型的浪潮中,思必驰与复旦大学联手,为复旦大学的第四教学楼打造了极具前瞻性的未来...
一篇120页AI4Resear... 尽管AI在科学研究中的应用取得了显著进展,但目前仍缺乏对AI在科学研究(AI4Research)中应...
热搜!雷军陪比亚迪CEO王传福... 7月18日,话题#雷军带王传福参观小米工厂#冲上热搜 据界面新闻7月18日消息,多名网友近日在社交...
扩内需新招!分众联合支付宝“碰... 近日,全国北上广深等20多座城市的电梯里,出现了一个新玩法——解锁手机后,碰一下分众海报边上那个“碰...
汉嘉设计:伏泰科技构建了面向城... 证券日报网讯 汉嘉设计7月18日发布公告,在公司回答调研者提问时表示,伏泰科技构建了面向城市服务场景...
松霖科技获得发明专利授权:“供... 证券之星消息,根据天眼查APP数据显示松霖科技(603992)新获得一项发明专利授权,专利名为“供挂...
让太空居民吃上“太空饭”,意大... 7 月 18 日消息,意大利航天局在一篇当地时间本月 10 日的文章中介绍了其 "Moon-Rice...
安徽鼎封橡胶取得新型加料器专利... 金融界2025年7月18日消息,国家知识产权局信息显示,安徽鼎封橡胶减震技术有限公司取得一项名为“一...
四川华西二院发布数字医生 开启... 央广网成都7月19日消息(记者 王颖 昌思荣)在7月18日举办的第四届华西妇幼国际会议上,四川大学华...
光伏气象监测站:精准数据,为光... 来源:竞道光电 【JD-FGF9山东竞道光电厂家品质保障,值得信赖】在全球能源转型的浪潮中,光伏能源...
特伦斯电气取得插销式扎带专利,... 金融界2025年7月18日消息,国家知识产权局信息显示,浙江特伦斯电气有限公司取得一项名为“一种插销...
海信视像获得发明专利授权:“问... 证券之星消息,根据天眼查APP数据显示海信视像(600060)新获得一项发明专利授权,专利名为“问答...
洋旺机电取得轧机用板带夹送矫直... 金融界2025年7月18日消息,国家知识产权局信息显示,石家庄洋旺机电技术有限公司取得一项名为“一种...
AI超级联赛,何以落户广西? 中新网南宁7月18日电(记者 杨陈)近期全国各地高温热浪持续。在广西南宁,即将于7月19日启动的AI...
REDMI 15C曝光,多款新... 最近,关于REDMI后续新机的消息开始陆续出现。 最新的消息显示,一款型号为 2508CRN2BC ...
机器狗有什么作用?看完这些应用... 近日,一则“国产四足机器人打破沉寂十年世界纪录”的新闻,再次引发全球对国产四足机器人的关注。无独有偶...