网络分区 | Jeanphilo Blog

副标题 / 摘要网络分区不可避免，关键是恢复与收敛。本文介绍分区后的常见恢复策略与工程实践。目标读者负责分布式系统的后端工程师需要设计一致性策略的架构师关注数据正确性的技术负责人背景 / 动机网络分区会让系统产生分歧版本。恢复阶段的策略决定了正确性与用户体验。核心概念分区恢复：网络恢复后进行数据对齐冲突解决：合并不同版本的写入补偿事务：修正错误状态实践指南 / 步骤明确冲突解决策略（LWW/版本向量）设计对账流程与修复脚本对关键数据做人工审核入口记录审计日志以便回放可运行示例 # 简化 LWW（Last-Write-Wins）示例 node_a = {"value": "A", "ts": 1} node_b = {"value": "B", "ts": 2} def reconcile(a, b): return a if a["ts"] >= b["ts"] else b if __name__ == "__main__": merged = reconcile(node_a, node_b) print(merged) 解释与原理恢复阶段需要“合并分歧”。 LWW 简单但可能丢失并发写；更复杂的系统会用版本向量或业务合并规则。常见问题与注意事项能否保证不丢数据？需要业务级合并或日志回放。恢复会影响性能吗？会，需安排低峰执行或异步处理。用户感知如何控制？提供“同步中”提示与延迟一致性说明。最佳实践与建议关键写入保留审计与回放能力对账与修复流程自动化为冲突策略建立可解释的规则小结 / 结论网络分区后的恢复是分布式系统的必修课。没有清晰策略，系统会在分区后留下长期脏数据。 ...