故障注入 | Jeanphilo Blog

副标题 / 摘要分布式系统的 bug 往往只在故障下出现。本文给出可落地的测试方法：故障注入、一致性校验与时钟模拟。目标读者做分布式系统的工程师负责可靠性与稳定性的团队想提高系统韧性的开发者背景 / 动机分布式系统没有单点真相，故障一旦发生就可能出现数据不一致与链路雪崩。必须在测试阶段引入“故障场景”。核心概念故障注入：模拟节点宕机、网络分区一致性验证：检查状态是否收敛时钟偏移：时钟不同步导致逻辑错误可观测性：日志、追踪、指标实践指南 / 步骤定义关键不变量（一致性约束）故障注入（延迟、丢包、断连、宕机）引入时间控制（时钟偏移/暂停）验证收敛与恢复回归与自动化可运行示例下面模拟“随机失败”的分布式写入： import random nodes = ["n1", "n2", "n3"] state = {n: 0 for n in nodes} def write(value): for n in nodes: if random.random() < 0.2: # 模拟失败 continue state[n] = value if __name__ == "__main__": write(10) print(state) 解释与原理分布式系统的正确性取决于故障场景下的行为。只有在测试里注入故障，才能提前发现问题。常见问题与注意事项只测正常路径够吗？不够，真正的 bug 都在异常路径。故障注入会不会太贵？代价远低于线上事故。 ...