软件系统应急预案概念梳理
- 使用场景
本预案所称突发事件的危机处置是指以下三种情况:
自然灾害、事故灾难或突发社会安全事件造成系统 或其某一节点的崩溃。
突发公共卫生事件、社会安全事件造成人力资源的 操作限制,严重影响支付清算系统的操作运行。
支付清算系统出现故障,恢复时间超过可容忍的 时间极限。
系统不间断原则。支付清算系统应建立灾难备份 系统,发生突发事件时,应按规定程序切换到灾难备份系统, 保障支付清算系统的不间断运行。
业务连续性原则。支付清算系统进行危机处置时, 应采取积极有效的措施,保障支付清算业务的连续性处理。
数据完整性原则。支付清算系统危机处置时,应 尽快查找丢失的支付清算数据,确保数据的完整性和社会资 金安全。
可操作性原则。支付清算系统危机处置预案应体 现以人为本,具有可操作性。
-- 预防机制
预防机制是指支付清算系统日常运行中,为防止因突发 事件导致系统出现故障和崩溃,或者在出现故障和崩溃时能 最大程度地减少损失所采取的预防措施和行动
--- 建立和完善灾难备份系统
完善支付系统 NPC 应急灾难备份系统,在条件允许的情况下定期或不定期地进行生产环境切换到应急灾难备 份环境的演练,保障应急灾难备份系统在危机情况下能快 速、高效地投入使用。
--- 建立和完善运行维护机制
为保障支付清算系统安全、高效、稳定运行,应建立和 完善运行维护机制,并达到以下要求:
明确运行维护的主体;
制定严格的运行管理制度;
确立责任追究和赔偿机制;
建立科学合理的运行维护管理体制;
加强日常维护。
--- 保留手工处置机制
为满足危机处置的需要,支付清算系统应在一定时期内 保留手工处置的方式。当发生危机事件必要时,大额支付系 统和小额支付系统采用全国联行的手工处置方式,同城票据 交换系统采用手工交换的处置方式。
-- 预警机制
预警机制是指发生突发事件,可能对支付清算系统造成 影响或已经造成影响,暂不需要启动危机处置预案时,对预 警信息的响应、传导和处置。
--- 预警阶段:
预警处置应做到早发现、早报告、早准备
--- 预警信息来源:
预警信息根据来源不同,分为系统运行异常信息和突发 事件信息。
系统运行异常信息是指支付清算系统在运行过程 中,硬件设备、应用软件、通讯网络等出现异常情况,或者 已经影响业务处理的信息。
突发事件信息是指由于自然灾害、事故灾难、突 发公共卫生事件、突发社会安全事件的发生,可能危及支付 清算系统硬件设备、应用软件、通讯网络、场地环境、人力 资源等影响业务处理的信息。
--- 预警信息收集主体:
系统运行异常信息由业务人员和系统运行人员收集, 突发事件信息由事发当地中心支行领导小组办公室负责 收集。
--- 预警报告:
系统运行异常的预警信息,由有关运行部门向业务主管 部门和运行管理部门报告。
--- 预警分析与行动:
业务主管部门和运行部门要分析系统运行的异常和突 发事件对支付清算系统的影响程度,并分别采取措施。
可能产生严重危害的,各分支行领导小组、地市 中心支行领导小组应通知有关单位加强预防,并做好有关危 机处置的准备。
对已经产生一定危害的,应及时采取积极的补救 措施,并按危机处置程序报告,通知有关单位作好进一步处 置危机的准备。
SLA:服务级别协议(英语:service-level agreement,缩写SLA)也称服务等级协议、服务水平协议,是服务提供商与客户之间定义的正式承诺。服务提供商与受服务用户之间具体达成了承诺的服务指标——质量、可用性,责任
EOP:(Emergency Operating Procedure三个单词中首字母的大写 )即应急操作流程,用于规范应急操作过程中的流程及操作步骤。确保运维人员可以迅速启动,确保有序、有效的组织实施各项应对措施。
SOP:(Standard Operating Procedure三个单词中首字母的大写 )即标准作业程序,就是将某一事件的标准操作步骤和要求以统一的格式描述出来,用来指导和规范日常的工作。
MOP:(Method of Procedure三个单词中首字母的大写 )即标准维护程序,用于规范和明确数据中心基础设施运维工作中各项设施的维护保养审批流程,操作步骤。
业务连续性:业务连续性(Business Continuity)是指企业有应对风险、自动调整和快速反应的能力,以保证企业业务的连续运转。