导读
商业银行主要依靠负债经营,如何保障客户和银行资金安全、并提供海量高并发的交易需求,实现稳定性和时效性,就成为金融应用系统的命脉所在。随着银行业数字化转型的逐步推进,新一代银行应用架构间的依赖度和耦合度愈发复杂、运维难度极大增加,在提高银行系统风险管理的必然趋势下,利用混沌工程和智能运维技术开展“红蓝攻防”的应急演练受到业界越来越多的关注。
1、真刀真枪的攻防对抗
金融业作为关系国家经济稳定运行的“命脉”,具有极高的业务可用性、及时性、安全性要求。金融监管部门早在2009年开始就陆续发布一系列监管政策以保障业务连续性,其中2020年发布的《银行保险机构应对突发事件金融服务管理办法》特别要求银行保险机构对灾难备份等关键资源或重要业务功能至少每年开展一次突发事件应对预案的演练。同时,随着各行各业数字化转型的不断深入,监管部门也多次发文要求保障数据安全,如《金融数据安全分级指南》(央行发[2020])、《监管数据安全管理办法(试行)》(银保监发[2020])等。作为保证金融机构业务连续性和数据安全的重要手段,应急处置机制起到了越来越重要的作用。
因此,常态化开展应急演练,可以对各种突发事件做出及时响应和协调处理,从而缩短服务中断的时间,降低数据安全风险,减少客户和银行的损失,建立系统在生产环境中应对各种“不按常理出牌”场景考验的信心。在应急演练中,通常用军事演习中的“红军”和“蓝军”指代攻防两方,在生产环境、真实数据下开展真刀真枪的对抗性演练。其中蓝军是攻击方,采用混沌工程等故障模拟工具,入侵、破坏或利用系统漏洞来获取未授权的信息访问权或导致系统服务中断。红军是防守方,采用智能运维等监控恢复工具,检测和应对蓝军发起的攻击,保护系统免受损害并及时采取应急措施修复受到的攻击。
近年来,实战化的红蓝攻防应急演练在国家有关部门的推动下逐渐呈现出常态化趋势,得到了广泛的应用。在金融行业,相较于具备强大技术自研实力的大型国有银行、股份制银行,中小商业银行则多通过与第三方科技公司合作来提升应急处置能力,实现保障业务连续性、保障数据安全。
2、蓝军武器:混沌工程
混沌工程(Chaos Engineering)是测试和增强分布式系统可靠性的技术方法,其核心思想是通过模拟真实世界中可能出现的故障场景,提前发现并修复潜在的系统弱点,从而提高系统的韧性和恢复能力,减少系统停机时间。混沌工程工具具备自动化、可视化特点,蓝军一方根据应急预案编写混沌实验脚本,在演练过程中自动注入模拟故障、监测系统状态、清除实验影响,并在演练结束后自动生成混沌实验执行报告,以便持续改进可用性等级。
混沌工程源于Netflix公司在2012年发布的混沌猴(Chaos Monkey)开源项目,混沌实验被称为“GAMEDAY”,即一场由开发、测试、运维等各个环节人员共同参与的“游戏”,旨在推进整个研发流程协同并进、实现成效优化内循环。
混沌工程宣言中提出五项原则:
● 稳定状态行为假设
通过吞吐量、错误率、消息时延等外部指标来判断系统是否处于稳定状态,而非功能正确性等内部指标。
● 多样化真实世界事件
识别注入硬件失效、软件异常、流量过载等故障。
● 生产环境运行实验
在生产环境或准生产环境作混沌实验,判别测试环境是否还原真实系统行为和流量。
● 持续自动化运行实验
人工注入故障不可持续,应要求自动实验、持续实验。
● 最小化爆炸半径
确保注入的故障不会对系统造成大规模的影响,对系统影响最小化并可控。
农业银行混沌工程平台能力视图
3、红军武器:智能运维
智能运维(Artificial Intelligence for IT Operations,AIOps)是基于人工智能和数据分析技术的运维管理方法,其核心目标是优化运维管理,减少人工干预的工作量,提升运维效率和可靠性。智能运维工具具备自动化、智能化特点,红军一方通过收集、监测和分析大量的运维数据,包括设备状态、性能指标、日志信息等,识别潜在问题、趋势和异常情况,利用云原生底座具备的故障自愈、弹性扩缩容能力,快速排除故障,恢复服务可用。
其中,站点可靠性工程(Site Reliability Engineering,SRE)是智能运维关注的核心内容。它通过引入自动化、监控、故障分析和持续改进等技术和方法,创建一个可靠性导向的运营团队和流程,确保网站、应用程序或系统能够持续高效、可靠地运行,以满足用户的需求并提供良好的用户体验。
智能运维技术应用广泛,包括但不限于以下方面:
自动化故障检测和排除
通过监测设备和系统的运行状态,快速识别并排除故障,减少停机时间和人工干预的需求。 ● 预测性维护
基于历史数据和模型预测,从而提前发现潜在的设备故障,提醒维护人员进行预防性维护,避免系统因未知故障而中断。 ● 自动化性能优化
通过实时监测和分析系统性能指标,来自动调整系统配置,优化资源分配,提高系统的性能和响应速度。
● 自动化日志分析
通过对日志信息的自动化分析,来检测潜在的问题、异常事件和安全威胁,加强系统安全性和运行稳定性。
智能运维平台是金融机构数字化转型的关键支撑平台,也是运维管理的重要工具。例如,中国工商银行的AIOps智能运维平台在金融行业中率先通过了AIOps通用能力评估,它能有效解决运维数据存储杂乱、报警误报率高、故障发现慢等现实问题,同时也切实保障了生产安全与运行稳定。邮储银行则借鉴互联网企业的先进微服务化理念,打造了以场景智能驱动的监、管、控一体化的智能运维平台。
工商银行AIOPS智能运维平台架构
总 结
应急演练是金融机构的必备动作,数字化技术的发展令应急演练过程自动化、智能化程度大幅提高。作为一家懂金融的科技公司,聚均科技为金融机构提供定制化的专业应急预案,并提供可独立部署的混沌工程工具与智能运维工具,助力金融机构在数字化转型过程中实现高水平的业务连续性、系统稳定性和安全性,实现高质量发展。
参考文献:
【1】米科拉吉·帕利科夫斯基:《混沌工程:通过可控故障实验提升软件系统可靠性》
【2】Casey Rosenthal,Nora Jones:《混沌工程:复杂系统韧性实现之道》
【3】钱兵等:《智能运维之道:基于AI技术的应用实践》
【4】华为公司:《华为智能运维解决方案白皮书》
【5】张观石:《SRE原理与实践:构建高可靠性互联网应用》
【6】马德辉:《邮储银行智能运维应用探索》
【7】程鹏:《AIOps智能运维在中国工商银行的探索与实践》
【8】张国栋:《浦发银行混沌工程探索与实践》
【9】彭尚峰:《农业银行混沌工程平台建设实践》