应急管理的 “三道防线”
数据集中后,IT在为银行、保险、证券金融机构的改革与金融创 新提 供重 要技术支撑的同时 ,面临着来自于运维管理上的巨大挑 战 ,如与数据集中相 配套的灾备中心 、应急响应体系等建设相对滞后 ,技术储备及经验不足 ,应 对突发事件和故障恢复能力较差等 。过去的几年里 ,这些金融机构的IT系统曾经或多或少地遭受到了安全的威胁 ,引发了一 些安全事故。虽然各家金融机构 在监管部门 的要求下都建立了灾备应急体系 ,但真正有效发 挥作用的不多 。因此 ,加强金融机构的IT应急管理建设 ,快速提高应急响应 、处理和故障恢 复能力 ,刻不容缓 。
应急管理——第一道 防线 :保 障系统安全
数 据集 中给金融 机构 带来 的最 大 挑 战是 大大增 加 了系统 安 全运 维 的难 度 和复 杂度 。如 何保 障 系统安 全 ,将 风 险消 灭在 萌芽 状态 ,中国人 民银 行 科技 司 安全 处处 长郭 全 明认 为 ,金 融 机 构要做 到 生产 安全应 从 系统 建设 和 运维管理 两个阶段下 功夫 。
首 先 ,系统 建设一 定要 充 分考 虑 冗余 容错 ,冗余要 合理 ,要统 筹考虑 。
同时系 统建 设不 要太 复杂 ,而 且还 要 有 数据 备份 ,不 能 因为灾 难或 其他 原因而 丢失数据 。
其 次 ,要 做 好 监 控 系统 的建 设 ,特别是 自主运维 能力 的建设非 常关键 。 除 了安 全监 控 ,建立安 全 的审 计制 度 也是 必须 的。因 为要保 证 系统 运行 安 全 ,从制 度上 还要 制定 严格 的制度 规 范和流程 。
第 三 ,要 做 好 变更 的严 格 管 理 , 注 意变更 的一致 性 、验 证测 试 和时 间 选择 。特 别要注 意应 用变更不 能太多 , 因为频繁 的应用变更最 容 易诱发 系 统 的 不 安 全 性 。 因此 ,金 融 机 构 必须 制 定 严格 的 变更时间制度 。比如 ,一 个 新 产 品投 产 以 后 ,一 个月 内 或 三 个 月 内不 能 进 行 应 用 变更 。实践 中 ,违反 规则 的现象还 很严重 。 此外 ,还要做好 系统 的 日常管理 ,包括 对相关 风 险进 行列 表 , 比如 风 险 分类 、分 级 等 。要 做 好 应 急 的 准 备 , 包 括人 、物 、组织 的备份 。中信 建 投 证 券 信 息 技 术 部 执 行 总 经 理 宋 群 力 认 为 ,系 统 安 全 最 关 键 的是IT 架 构 要 合 理 ,设 计 时 须 全 面考 虑 ,综 合安 排 ,细 致把 握 。 同时 ,要有 非 常细 致 的流 程设 计 。“系 统 建 设 上 ,不 可 能 面 面俱 到 。 不 能 在 例行安 排 里 做 到 的 ,或 者 成本 很 高 的 , 应该 安 排 在 应 急环 节 里 解 决 。”宋 群 力说 。另外 ,系 统测 试要 充分 ,证券 行 业 的软件 从 网络 到操作 系统 、应用 系 统大 都不 是 自己做 的。 因此 系统上 线 前一 定要想 尽 一切 办法 做好 测试 ,特 别 是 压力 测试 。通 过充 分 的测试 ,把 潜 在故障率 降下来 。在 日常管 理方 面 ,系统运 维力求只做 写好 的事 ,严格 按照 流程 走 。接 下 来 ,将 会 提 升自动运行指令的自动化。宋群力不太同意集中式的监控,指令在一个系统内发出,他说:“我不主张监控太形式化。”
由 于 证 券 行 业 的特 点 是 系 统 不 停 地在 变化 ,看 似不 相关 的两 个系 统 因为变 化可 能被 耦合 在一起 ,任何 一 边 的 变化都 会影 响 另一端 ,那 么谁来 控 制?“我 们 这 里是 专 业 化 分 工 , 自己 独 立 管理 ,各管 各 的 ,出了 问题 由安 全组 通盘 来看 。这样 效 率最 高 ,相 对来说 风险反 而会 小一些 。”宋 群力 说 , “系统运行 既不 能监 控不到 ,也不能过 度监控 。”作为业 内应急管 理专 家 ,德勤 企 业 风 险 管理 服 务合 伙人 薛 梓 源认 为 ,保 障系统 安全运行 应 当在故 障和灾难 发生 前进行 预防 ,通 过对 事件 的监控 和处 理 ,减 少故障发 生 的可能性 和造 成的影响。薛梓源建 议 ,在 监控 过程 中 ,应 当综合 系统 、网络 、应用 及安 全等 各 方 面 的报 警和 日志等信 息 ,通 过对 响 应 时间 、吞吐量 、性能 和13 志 的主 动 监控 ,进行综 合分 析和判 断 ,从 而发 现其 中的异 常现象 ,以识别 故障发 生 前的迹 象和趋 势 ,在还 未影 响业 务 的 时候 ,主 动对重 复发生 或者风 险较 大 的事件进行处理 。此外 ,配置管 理将 为主动 监控提 供具体 的监控 对象 ,根据 在生产 环境 下对业 务 的影 响程 度 ,对不 同组件 有 不 同的监控力度 。薛梓源说 ,“引起 系 统 故障 的最大原 因 ,就 是没有 控制地 对生产环境进行变动 。”
应急管理——第二道防线 :做足常规性预案
在美 国 “9 •11”事件 中,位 于世 贸大厦25 层 的摩根斯 坦利由于其 出色 而完善 的应急 预案 ,存活下来 了。当时 ,在 第一架 飞机撞 击大 楼之后 ,第二 架 飞机 撞击 之前 的两分钟 内,摩 根斯 坦 利 的几 千 名员工 已被 全部疏 散掉 。而 在 “9 •11”事件 发生后的第二 天 ,摩 根斯坦利却宣布其业务正常营业 。据 了解 ,国外 的一些 金融机 构在 应 急预案 特别 是常规性 的预 案设计 上 考虑得非 常充分 ,有的竞高达7000 多 份 。而国 内的一些 金融 机构在 预案 设 计上要少很多 ,一般 只有几 十份。G D S 副总裁 、首席 灾备专 家汪琪 说 ,之所 以 国外金融 机构 的应急 预案 设 计 比较多 ,这 是 由于他们 对不 同 的 事 故情况 和不 同的场 景都有 相应 的应 急 手段 。比如 系统 出现 问题 ,存储 出 现 问题 ,通 讯线路 出现 问题 ,空涮 出 现 问题 ,以及供 电出现 问题 等等 ,这 些 都是 需要 经常用 到 的场景 。每 个场 景再细 分到 不 同的系统 ,就会有 各种 细分 的预案 出来 。“如果 把业 务应急预 案计算在 内 ,那 么出现7000 多份 预案 是正常 的。”汪琪表示 。有 了详 细 的应急管理预 案 ,是 不是就一 定好 用? 关 键时候 能不 能做 得 了切 换或者 回切? 郭全 明认 为 ,好 的预案 是 通过平 时 的演练 、测试和 真实 事件 等总结提 炼出来的。要做到预案有效 ,就必须 多演练 ,而且IT 层面 的演 练需 要业务层面来 体现 。如 何 检 验 预 案 是 否 有 效? 汪 琪 说 ,可 以通过 多种形 式演 练来提 高对 预案掌 握的熟 练度 。演练按 功能 分 四 种 :桌面 演练 ,即针对 人 的演练 ;部 分 系统演 练 ,即针 对某个 关键 业 务系 统 、关 键交 易渠 道的检 验 ;全 系统 的模拟演练 ;真实切换演练,即生产系统停 止运行 切换 到备份 系统 上 ,并对 外 营业 。按 通知方 式 ,演 练包括 通知 方 式 的演练 和不通 知方式 的演 练。在 初 级 阶段应进 行通 知方式 的演练 ,使 参 与演 练的人 员熟悉 预案及 各 自的职 责 。随着 预案 的不断完 善 ,也 可 以进 行 大规模 不通知 的演 练 ,以检 验真正 突发情 形下 的应 急体系 的完善度 和人 员的熟练程度 。在演 练 内容 上 ,可 以定义每 次演 练的不同检验 目标 ,如检验各类流程 、检验某个系统恢复的技术步骤等,从 而不 断完 善预案和培训相关 人员。演 练方 案要 尽 量模 拟 实 际情 况 , 演练 过程要 严格 按照 预案进行 ,并及 时记 录 ,演练 完成后 要及 时总结 并完 善预案。在演练 频率 上 ,应急管理演练可 以每 个 月做一 次 ,模 拟演 练要求 每半年 到1 年 做一 次 ,而真 实 切换 演练 ,按照 监管部 门的要 求 ,一般每3 年做一次。因为 这种演 练有 风险而且 要动用 大量 的内外部 的资源 ,难度非常大 。
汪琪告诉 记 者 ,真实 切换演 练有两种 模式 ,一 种是 整个 业务 全部 切换过去 ,包 括核心业务 系统 、主 机平 台,以及周边上 百套业务平 台的全部切 换 ,其 中涉及 到很 多外 联渠 道 ,外联 渠道是切 换时 最头 疼 的问题 ,因为很 多 问题不 是银行 自己能 解决 的。另一 种是双中心( 生产系统和灾备 系统各 两套) 模式 的切 换 ,这 种模 式 的好 处就 是无论哪 个 中心 的系统 出现 问题 ,都 能直接切 换 ,而 且切 换 时间 很短 ,授 权级别也很低 。
应急管理——第三道防线 :健全 灾备预 案
灾备 预案 是金 融机 构应 急安 全风险的 最后一 道 防线 ,什 么情况 下 才可以启 动 ,要 视 当时的实际环境和具体问题而定。银 行 等 金 融 机 构 的 灾备系统 大都 是 面 向核 心业 务 系统 建设的,目标是保支付、保生存,很少有银行备份其全部业务系统。这样,一旦灾难发生时,银行只能对外提供最基础的储蓄、对公服务和柜面渠道,而大部分的中间业务、对外渠道和资金清算的连接、跨行的连接、第三方连接等,大部分银行在灾难发生时不能切换过去,而是仅保留最核心的柜面传统业务。
另一方面,切换之后的回切是一个致命问题。根据监管要求,核心业务系统要在6小时内完成切换,实际上真正留给银行的时间只有4小时或更短。一般地,大部分银行在这个时间内能够完成切换,但是回切有可能需要几个星期。
因此,当CIO们做这个决策的时候,会有很多顾虑。如果发生类似‘`9•11"那样的灾难,数据中心一下子垮掉了,不需要考虑很多,可以马上切过去,带一些业务系统运行,待生产中心重新建好后,再做回切。但如果只是某一个环节出了问题,是切过去的代价大还是留在生产中心继续做恢复的代价大,就不容易在短时间内做出准确的评估了。
对此,宋群力亦有同感,从生产中心切换到灾备中心无论是网络还是系统的性能都会大打折扣,同时引发管理弱化、管理成本高,而管理弱化会连带清算风险,后果非常可怕。
事实上,不是每个安全问题都可以通过切换的方式解决的。像软件类的故障,比如软件版本升级,或者病毒侵染,或者删除错误等,并不是灾备中心能够解决的。这是因为大部分银行对核心业务账务采用了5级以上的复制手段。这意味着,生产中心的数据延迟时间和备份中心的数据延迟时间是以分钟记的。一旦生产中心出现故障,这些错误就会直接被复制到灾备中心。当然,有些软件类的故障,比如数据库容量问题,灾备中心不会出现这样的问题。
另外,灾备中心普遍比生产中心的处理能力要低。因此,当生产中心由于无法应付突发的交易量,造成生产中心系统垮掉时,灾备中心就更容易垮掉。“证券业尤为明显,一旦证券交易高峰时,交易量是平时的20-50倍。当切换到灾备中心的时候,交易处 理能 力能 否跟 得上 是一 项重 大挑 战 。”汪琪表示 。由于灾 备应 急预 案需要 的是 整体 可 用性 ,是 对IT 和 业务 的 统一 要 求。而 常规性 预 案通 常是采 用本 地高 可用 性 的 设备 、技 术 来 防范 单 点 的 故 障。 因此 ,灾 备预 案 比常规性 预 案要 复杂 得多 ,需 要考 虑多 种场 景 ,准备 多种 预案 。
那 么 ,如何 完善 和健全 灾备 应急 体 系呢? 汪琪 认 为 ,灾 备预 案应 当 电 子化 、流 程化 ,用 一套 软件 管理 整个应急流程 ,来进行通知通报 、辅 助决 策 、协助演 练 ,从 而解 决整合 、流程 、电子 化 的 问题— — 这是IT 上 的要求 。 业务 上 ,要求 在 面对 多种场 景时 能快 速 进 行 恢 复 ,特 别 是 在 无IT 支 撑 的 情况 下 ,在一 定 的授权 和一 定 的限额 当中 ,采 用一 定 的方式 、方 法可 以接 单 。近些 年 ,国 内金融 机构 的重 点 主 要是 放在 业 务发展 上 ,真正 实施 业务 连续 性计 划 的非 常少 。因此 ,要 做到 灾备 应急 预案 真 正有效 还有 很长 的路 要走 。