分布式 | Jeanphilo Blog

手写一个基础消息代理：发布、订阅、重试与失败契约

用一个可运行的 Go 版本基础消息代理，讲透发布订阅、重试语义、失败契约、吞吐与积压估算，以及从朴素实现到工程可用实现的关键取舍。

分布式系统中的故障切换与会话管理

副标题 / 摘要故障切换保证服务可用，会话管理保证用户体验。本文给出常见策略与实践建议。目标读者设计高可用系统的工程师负责用户体验的后端团队架构与运维负责人背景 / 动机分布式系统不可避免会发生节点故障。如何快速切换并保持用户会话，是高可用系统的关键。核心概念故障切换：主节点失败时快速切换会话存储：本地或共享无状态服务：降低切换成本实践指南 / 步骤使用健康检查与心跳检测故障实现主备或多活切换把会话外置到共享存储使用粘性会话或无状态策略可运行示例 # 简化“会话外置”示意 session_store = {} def set_session(uid, data): session_store[uid] = data def get_session(uid): return session_store.get(uid) if __name__ == "__main__": set_session("u1", {"cart": [1, 2]}) print(get_session("u1")) 解释与原理故障切换要求服务无状态或会话可共享。会话外置能保证切换后用户状态不丢失。常见问题与注意事项会话一定要外置吗？高可用场景建议外置。粘性会话可以吗？可以，但会降低切换能力。多活会话一致性怎么做？需要一致性存储或冲突解决策略。最佳实践与建议服务尽量无状态化会话数据存入 Redis 等共享存储故障切换定期演练小结 / 结论故障切换与会话管理密切相关。无状态服务与外置会话是实现高可用的关键。 ...

如何设计去中心化 P2P 系统：节点、发现与一致性

副标题 / 摘要 P2P 系统的核心是去中心化的节点发现与数据分发。本文给出设计要点与简化示例。目标读者学习分布式架构的工程师想设计去中心化系统的团队关注可扩展性与鲁棒性的开发者背景 / 动机 P2P 系统不依赖中心节点，天然具有扩展性与鲁棒性。但它也带来一致性与安全挑战。核心概念节点发现：让新节点找到网络路由：在节点间转发请求一致性：保证数据分布与收敛实践指南 / 步骤定义节点身份与地址设计引导节点或 DHT 机制实现消息转发与路由表加入心跳与节点淘汰可运行示例 # 简化的 P2P 广播示例 class Node: def __init__(self, name): self.name = name self.peers = [] def connect(self, peer): self.peers.append(peer) def broadcast(self, msg): print(self.name, "->", msg) for p in self.peers: p.receive(msg) def receive(self, msg): print(self.name, "received", msg) if __name__ == "__main__": a, b, c = Node("A"), Node("B"), Node("C") a.connect(b) b.connect(c) a.broadcast("hello") 解释与原理 P2P 的难点在于“无中心”。需要通过节点发现与路由机制保证请求可达。 ...

如何排序 10TB 数据：分布式排序思路

副标题 / 摘要 10TB 数据无法在单机完成排序。本文介绍分布式排序的核心流程与工程要点。目标读者处理大规模数据的工程师学习分布式系统的开发者关注数据处理流程的人背景 / 动机数据规模超过单机能力时，必须通过分布式拆分与并行归并完成排序。这涉及数据切分、网络传输与容错。核心概念分片（Shard）：数据切分到多个节点 Shuffle：按 key 重新分配数据分布式归并：跨节点合并有序块实践指南 / 步骤按范围或哈希切分数据各节点本地排序 Shuffle 让相同范围的数据聚集全局归并并输出结果可运行示例 # 简化的“分片排序”示意 def shard_sort(chunks): return [sorted(c) for c in chunks] def merge_two(a, b): i = j = 0 res = [] while i < len(a) and j < len(b): if a[i] < b[j]: res.append(a[i]); i += 1 else: res.append(b[j]); j += 1 res.extend(a[i:]) res.extend(b[j:]) return res if __name__ == "__main__": shards = shard_sort([[3, 1], [4, 2]]) print(merge_two(shards[0], shards[1])) 解释与原理分布式排序的关键在于“局部排序 + 全局归并”。 Shuffle 会成为主要瓶颈，需要优化网络与分区策略。 ...

Java 与 C# 的互操作性：可行路径与现实约束

副标题 / 摘要 Java 与 C# 在运行时层面不直接互通，工程上通常通过协议进行互操作。本文总结常见路径与约束。目标读者需要跨语言协作的后端工程师进行技术选型的团队关注系统边界与协议设计的架构师背景 / 动机 JVM 与 CLR 不兼容，直接互操作成本高。工程上更常见的是“协议互通”，而不是“二进制互通”。核心概念协议互通：通过 HTTP/gRPC/消息队列交互数据契约：用 OpenAPI/Protobuf 约束输入输出跨平台约束：版本兼容与向后兼容实践指南 / 步骤选择跨语言协议（REST/gRPC/消息）用契约驱动开发（OpenAPI/Protobuf）在边界层统一错误码与版本策略建立兼容性测试与回放机制可运行示例 # 以 REST 为例，跨语言互操作依赖协议而非运行时 curl -X GET "http://localhost:8080/api/v1/users/1" 解释与原理 Java 与 C# 的互操作本质是“协议互通”。只要协议稳定、数据契约清晰，两端可以独立演进。常见问题与注意事项能否直接共享对象模型？不现实，语言与运行时差异大。为什么推荐 Protobuf？兼容性好、性能高、跨语言支持完善。版本升级怎么处理？需要兼容策略与灰度发布。最佳实践与建议优先契约驱动开发对协议变更建立评审机制保持向后兼容与清晰版本号小结 / 结论 Java 与 C# 的互操作不是“共享运行时”，而是“共享协议”。协议稳定、契约清晰才是工程关键。参考与延伸阅读 OpenAPI 规范 gRPC + Protobuf 文档元信息阅读时长：6~8 分钟标签：互操作性、协议 SEO 关键词：Java C# 互操作, gRPC 元描述：说明 Java 与 C# 的互操作方式与约束。行动号召（CTA）为你的跨语言服务写一份数据契约，并把它作为版本发布的依据。

CAP 理论怎么落地：CP、AP、CA 的直观例子

副标题 / 摘要 CAP 不是理论考试题，而是系统设计的现实约束。本文用工程例子解释 CP、AP、CA 的取舍。目标读者做系统选型的后端工程师需要理解一致性与可用性的团队架构与技术负责人背景 / 动机网络分区发生时，系统无法同时满足一致性与可用性。理解 CAP 可以避免错误的业务承诺。核心概念一致性（C）：所有节点读取同样数据可用性（A）：请求总能得到响应分区容错（P）：网络分区时仍能工作实践指南 / 步骤先确认业务对一致性的硬要求估算可用性指标（SLA/SLO）基于分区风险选择 CP 或 AP 明确降级策略与补偿机制可运行示例 # 简化演示：分区时的读写策略选择 def choose_strategy(needs_strong_consistency: bool): if needs_strong_consistency: return "CP: 拒绝部分请求以保持一致" return "AP: 保持可用，接受短暂不一致" if __name__ == "__main__": print(choose_strategy(True)) print(choose_strategy(False)) 解释与原理在发生网络分区时，要么拒绝部分请求（保一致），要么接受不一致（保可用）。因此在分布式系统里，P 几乎是必选项，核心在 C 与 A 的取舍。常见问题与注意事项 CA 系统是否存在？只有在“无分区”假设下才成立，现实中很少。 AP 就一定不一致吗？它是“最终一致”，而非永久不一致。 CP 会不会不可用？会，CP 在分区时会拒绝请求。 ...

最终一致性：分布式系统中的现实与取舍

副标题 / 摘要最终一致性表示“短时间内可能不一致，但最终会收敛”。本文解释它的工程价值与风险。目标读者负责分布式系统的后端工程师设计一致性模型的架构师需要做数据取舍的产品与技术负责人背景 / 动机强一致性通常意味着更高延迟与更低可用性。最终一致性提供了可用性与扩展性的折中方案。核心概念最终一致性：系统在一段时间后收敛一致收敛时间：达到一致所需的时间窗口读写冲突：并发更新导致的版本差异实践指南 / 步骤识别可容忍不一致的业务定义收敛时间与告警阈值引入幂等与重试机制用版本号/时间戳解决冲突可运行示例 # 简化的“最终一致”模拟 state = {"A": 0, "B": 0} def update(node, delta): state[node] += delta def reconcile(): total = sum(state.values()) state["A"] = total // 2 state["B"] = total - state["A"] if __name__ == "__main__": update("A", 5) update("B", -1) print(state) # 暂时不一致 reconcile() print(state) # 最终收敛解释与原理最终一致性依赖异步复制与冲突解决策略。它让系统保持高可用与高吞吐，但需要接受短暂的不一致。常见问题与注意事项所有业务都适合最终一致吗？不适合，金融扣款等场景需要更强一致性。 ...

发布/订阅在可扩展性上的缺点：一致性与可观测性成本

副标题 / 摘要发布/订阅架构提升了解耦与扩展性，但也带来一致性、可观测性与调试成本。本文给出其缺点与应对。目标读者设计事件驱动系统的工程师需要评估架构代价的团队关注一致性与可观测性的开发者背景 / 动机发布/订阅系统在大规模系统中常见，但“规模”并不等于“容易维护”。随着订阅者增多，系统复杂度急剧上升。核心概念解耦：发布者与订阅者隔离一致性延迟：事件传播需要时间可观测性难度：链路难追踪幂等：重复消费的处理实践指南 / 步骤明确事件语义与顺序保证建立消费监控与失败重试定义幂等与补偿策略限制事件级联传播建立追踪链路可运行示例 # 简化事件订阅模型 subscribers = [] def subscribe(fn): subscribers.append(fn) def publish(evt): for fn in subscribers: fn(evt) def handler(evt): print("got", evt) subscribe(handler) publish({"type": "created", "id": 1}) 解释与原理发布/订阅的扩展性来自解耦，但也引入了“传播延迟”和“调试不透明”。当事件链路复杂时，错误很难定位。常见问题与注意事项订阅者越多越好吗？不一定，链路复杂度会显著上升。一致性如何保证？通常只能做到最终一致。为什么调试困难？因为事件是异步的，缺乏完整调用链。最佳实践与建议给事件加唯一 ID 与追踪上下文对关键事件建立 SLA 控制事件风暴与级联小结 / 结论发布/订阅不是免费午餐。它带来扩展性，同时带来一致性与可观测性成本。 ...

如何设计高可扩展系统：从瓶颈到弹性

副标题 / 摘要高可扩展系统不是堆机器，而是从瓶颈识别、解耦与弹性设计开始。本文给出设计步骤与工程要点。目标读者负责架构设计的工程师做容量规划与扩展策略的团队需要提升系统弹性的开发者背景 / 动机系统的“扩展性”往往在业务增长后才被重视，但此时再改成本巨大。提前建立可扩展性思维能显著降低后期风险。核心概念瓶颈识别：CPU/IO/网络/数据库解耦：服务边界与异步化弹性：自动扩缩容、快速恢复可观测性：指标、日志、追踪实践指南 / 步骤识别系统的主瓶颈拆分服务边界（高耦合点优先）引入缓存与异步队列设计无状态服务建立自动扩缩容与容错机制可运行示例 # 简化示意：用队列解耦请求处理 import queue q = queue.Queue() def enqueue(task): q.put(task) def worker(): while not q.empty(): task = q.get() # 处理任务 q.task_done() 解释与原理扩展性来自“资源增加后系统效率保持”。这需要解耦、无状态、分布式与观测能力。常见问题与注意事项拆分越多越好吗？不，过度拆分会增加协作成本。缓存就能解决扩展性吗？缓存只能缓解读压力。如何评估扩展性？用压测与扩展曲线验证。最佳实践与建议先找到瓶颈再拆分不要为了扩展性牺牲过多简单性保持可观测性小结 / 结论高可扩展系统是“识别瓶颈 + 解耦 + 弹性”的结果。扩展性不是特性，而是长期工程纪律。 ...

什么是 CQRS：命令与查询职责分离

副标题 / 摘要 CQRS 将写入与读取分离，提升可扩展性与演进能力，但也引入一致性与复杂度成本。本文给出取舍指南。目标读者负责架构设计的工程师处理高读/高写负载的团队评估复杂度与收益的技术负责人背景 / 动机很多系统读写特征差异巨大。 CQRS 通过分离读写模型，让扩展与优化更灵活。核心概念 Command：写操作 Query：读操作读写模型分离：独立演进最终一致性：读模型可能有延迟实践指南 / 步骤评估读写比例差异定义命令与查询边界设计读模型同步策略（事件驱动）明确一致性要求监控读写延迟可运行示例 # 写模型 store = {} def create_user(uid, name): store[uid] = name # 读模型（简化示例） def get_user(uid): return store.get(uid) 解释与原理 CQRS 的核心是“读写模型解耦”。写模型保证一致性，读模型优化查询性能。常见问题与注意事项 CQRS 一定要配事件溯源吗？不一定，但经常搭配。复杂度会增加吗？会，尤其是读模型同步与一致性处理。适用哪些场景？读写差异大、查询复杂或需要高扩展性。最佳实践与建议不要为简单系统引入 CQRS 先做读写分离，再考虑 CQRS 明确一致性 SLA 小结 / 结论 CQRS 是架构级手段，适合规模与复杂度较高的系统。在小系统中引入可能得不偿失。 ...