容错 | Jeanphilo Blog

分布式系统中的故障切换与会话管理

副标题 / 摘要故障切换保证服务可用，会话管理保证用户体验。本文给出常见策略与实践建议。目标读者设计高可用系统的工程师负责用户体验的后端团队架构与运维负责人背景 / 动机分布式系统不可避免会发生节点故障。如何快速切换并保持用户会话，是高可用系统的关键。核心概念故障切换：主节点失败时快速切换会话存储：本地或共享无状态服务：降低切换成本实践指南 / 步骤使用健康检查与心跳检测故障实现主备或多活切换把会话外置到共享存储使用粘性会话或无状态策略可运行示例 # 简化“会话外置”示意 session_store = {} def set_session(uid, data): session_store[uid] = data def get_session(uid): return session_store.get(uid) if __name__ == "__main__": set_session("u1", {"cart": [1, 2]}) print(get_session("u1")) 解释与原理故障切换要求服务无状态或会话可共享。会话外置能保证切换后用户状态不丢失。常见问题与注意事项会话一定要外置吗？高可用场景建议外置。粘性会话可以吗？可以，但会降低切换能力。多活会话一致性怎么做？需要一致性存储或冲突解决策略。最佳实践与建议服务尽量无状态化会话数据存入 Redis 等共享存储故障切换定期演练小结 / 结论故障切换与会话管理密切相关。无状态服务与外置会话是实现高可用的关键。 ...

分布式系统如何处理故障：超时、重试与降级

副标题 / 摘要故障是分布式系统的常态。本文介绍超时、重试、熔断与降级等核心策略。目标读者负责服务稳定性的后端工程师需要设计容错机制的团队关注可靠性的技术负责人背景 / 动机网络抖动、依赖失败、资源耗尽都会导致故障。没有系统化的策略，故障会扩散为雪崩。核心概念超时：避免无限等待重试：恢复短暂故障熔断：快速失败，保护系统降级：保核心功能实践指南 / 步骤为所有外部调用设置超时重试加入退避与上限引入熔断器阻止雪崩为关键路径准备降级策略可运行示例 class CircuitBreaker: def __init__(self, threshold=3): self.failures = 0 self.threshold = threshold self.open = False def call(self, fn): if self.open: return "fallback" try: result = fn() self.failures = 0 return result except Exception: self.failures += 1 if self.failures >= self.threshold: self.open = True return "fallback" def unstable(): raise RuntimeError("fail") if __name__ == "__main__": cb = CircuitBreaker() for _ in range(4): print(cb.call(unstable)) 解释与原理超时与重试解决“短暂故障”，熔断防止“持续故障扩散”。降级保证系统在失败时仍能提供核心价值。 ...

健壮性原则：发送要保守，接收要开放

副标题 / 摘要 “发送要保守，接收要开放”强调协议实现要严格输出、宽容输入。本文解释其工程价值与风险控制。目标读者设计协议或接口的开发者需要提升系统兼容性的工程师关注系统稳定性的技术负责人背景 / 动机系统之间的协作经常出现版本差异或边界数据。健壮性原则旨在提高兼容性与稳定性，但也容易掩盖错误。核心概念保守发送：严格遵循协议输出开放接收：尽量容忍输入差异容错边界：兼容但不放弃校验实践指南 / 步骤输出严格遵守协议（字段、格式、范围）输入做宽容解析（大小写、空白、可选字段）对异常输入记录告警明确“可容忍范围”的边界可运行示例 # 允许输入有空白/大小写差异，但输出严格规范 def parse_level(value: str) -> str: v = value.strip().lower() if v in ("info", "warn", "error"): return v return "info" # 容错默认值 def emit_level(level: str) -> str: # 发送时严格规范 return level.lower() if __name__ == "__main__": print(parse_level(" WARN ")) print(emit_level("WARN")) 解释与原理开放接收降低了“因为小差异导致系统失败”的概率。保守发送则保证你不会向外部传播错误数据。常见问题与注意事项会不会掩盖错误？会，因此需要告警与监控。开放接收是否意味着接受所有输入？不，仍需严格校验关键字段。何时不应开放接收？安全敏感或金融类场景要更严格。 ...

Web 与桌面应用的容错管理差异：思路与实践

副标题 / 摘要 Web 与桌面应用的容错目标不同：Web 更关注高可用与多副本，桌面更关注本地恢复与数据完整性。本文给出对比与实践建议。目标读者负责跨端系统设计的工程师需要制定容错策略的技术负责人关注可靠性与用户体验的开发者背景 / 动机同样是“容错”，Web 关心的是“服务不中断”，桌面关心的是“用户不丢数据”。如果把 Web 的策略照搬到桌面，或反之，效果往往不佳。核心概念 Web 容错：多副本、负载均衡、熔断、降级桌面容错：本地事务、自动恢复、崩溃保护状态管理：无状态 vs 有状态实践指南 / 步骤明确容错目标：可用性、数据完整性、体验连续性 Web 端优先无状态，用多副本与自动扩缩容桌面端优先保护本地状态（自动保存、崩溃恢复）建立错误分级：可重试、可降级、必须失败跨端一致性：必要时用同步/冲突解决策略可运行示例下面展示桌面应用“自动保存”的最小示例： import json import time state = {"text": "draft"} def autosave(state, path="autosave.json"): with open(path, "w") as f: json.dump(state, f) if __name__ == "__main__": for i in range(3): state["text"] += "!" autosave(state) time.sleep(0.1) print("saved") 解释与原理 Web 服务通过多副本与负载均衡保证“任一实例失败不影响整体”。桌面应用无法依赖多副本，只能通过本地持久化与恢复机制容错。 ...