FA18# 中间件稳定性治理内容提点

共 1213字，需浏览 3分钟

·

2022-08-25 23:19

引言

中间件稳定性尤为重要，本文希望梳理从各个方面形成一个体系回答这个问题。推而广之，其他技术治理也类似。本文主要内容有：

业界案例分析
故障恢复演练
每月攻防演练
遵守变更规范
完善监控告警
事故案例复盘
落实代码CR

一、业界案例分析

以业界一公司的故障举例，由于强依赖缺少降级方案造成比较大的故障。

在早上8点到10点、下午5点到8点为业务高峰，也就是上下班高峰期。

容器团队通过弹性调度在低峰区缩容、高峰期扩容。

容器pod的重建依赖一个摘流系统。

摘流负责发布前流量的拉出、发布后流量的拉入。

摘流系统依赖CMDB去检查应用的合法性。

故障发生在CMDB系统出现假死、整个CMDB无法访问。

‍摘流系统无法访问CMDB、流量的拉入拉出失效。

在高峰期容器弹性扩容后、无法引入流量、导致大量服务不可用。

反思改进，容器弹性扩缩容强依赖摘流系统、缺少摘流系统异常的降级应对方案。

反思改进，摘流系统强依赖CMDB系统、缺少CMBD异常后的降级措施。

反思改进，容器弹性扩缩容是后来新增能力，未对依赖的上下游方案通盘走查，是否存在强依赖以及应对措施。

二、故障恢复演练

当故障出现时，5分钟发现、5分钟定位、10分钟恢复，5-5-10。

架构设计上避免故障发生对业务的影响。

例如：RocketMQ主从跨可用区交叉部署。

例如：Kafka核心服务3个副本。

例如：注册中心/配置中心等本地磁盘/缓存容灾设计。

提供容灾迁移能力，当故障发生时迁移到灾备集群。

常备低水位容灾集群、一键/自动迁移到灾备集群。

完善SOP应急手册、人员互备实时Oncall。

应急恢复演练达到或不断逼近10分钟。

三、每月攻防演练

为什么需要重视故障演练？

提高容错性、可恢复性、验证高可用能力。

验证关键指标等告警的时效性。

应急操作恢复的时效演练。

场景：磁盘IO、CPU飙高、磁盘损坏、节点宕机、主从切换、网络分区等。

符合预期，心里有数。

不符预期，强化改进。

四、遵守变更规范

不同等级中间件需符合停留期要求。

变更范围由小到大验证。

变更从非核心服务到核心服务验证。

中间件变更需要整理文档，变更文档需要织评审。

满足可监控、可应急、可灰度基本要求。

变更单需要审批流程。

五、完善监控告警

每个组件梳理完善关键指标。

吞吐QPS、连接数、节点数量、响应时间、节点可用性、硬件指标水位。

确保指标监控告警畅通有效。

每周定期巡检确保水位正常。

六、事故案例复盘

定期复盘线上涉及中间件的案例。

业界的典型案例分析并沉淀文档。

举一反三其他组件和场景。

把别人的经验变成自己的。

反思自身组件需要提高的点。

七、落实代码CR

变更须组织CR并落实记录。

记录CR文档，例如：需求、分支、代办改进项。

强化代码评论，注意评论与代码对应。

使用CR工具，例如：GitLab Merge Requests

先讲解代码结构与主流程。

静默阅读对代码做出评论。

互备同学主评/其他人参评。

讲解人对评论解释和答疑。

总之，不断尝试更为有效的CR方式。

浏览 36

点赞

收藏

分享

举报

评论

图片

表情

混沌工程在云原生中间件稳定性治理中的实践分享

腾讯云中间件

消息治理，到底需要治理哪些内容？

淘宝数据治理及稳定性保障实践

肉眼品世界

CC cake(自提点)

本店特色美食。榴莲千层雪,老冰糖炖柠檬,蛋黄酥

恢复金融稳定性

恢复金融稳定性

NegroniWeb中间件

Negroni是Go开发的Http中间件，非常小，没有侵入性，鼓励使用ofnet/http处理程序。如果你喜欢Martini，又觉得它太过于复杂，那么Negroni非常适合你。入门安装Go并设置好 G

express-jsonrpc2Express 中间件

Express.js 的 JSON-RPC version 2 实现express-jsonrpc2

TatalaRPC中间件

这个项目最早(2008年)是用于一个网络游戏的Cache Server，以及一个电子商务的Web S

点赞

收藏

分享

举报