系统设计 | Jeanphilo Blog

手写一个基础消息代理：发布、订阅、重试与失败契约

用一个可运行的 Go 版本基础消息代理，讲透发布订阅、重试语义、失败契约、吞吐与积压估算，以及从朴素实现到工程可用实现的关键取舍。

如何设计去中心化 P2P 系统：节点、发现与一致性

副标题 / 摘要 P2P 系统的核心是去中心化的节点发现与数据分发。本文给出设计要点与简化示例。目标读者学习分布式架构的工程师想设计去中心化系统的团队关注可扩展性与鲁棒性的开发者背景 / 动机 P2P 系统不依赖中心节点，天然具有扩展性与鲁棒性。但它也带来一致性与安全挑战。核心概念节点发现：让新节点找到网络路由：在节点间转发请求一致性：保证数据分布与收敛实践指南 / 步骤定义节点身份与地址设计引导节点或 DHT 机制实现消息转发与路由表加入心跳与节点淘汰可运行示例 # 简化的 P2P 广播示例 class Node: def __init__(self, name): self.name = name self.peers = [] def connect(self, peer): self.peers.append(peer) def broadcast(self, msg): print(self.name, "->", msg) for p in self.peers: p.receive(msg) def receive(self, msg): print(self.name, "received", msg) if __name__ == "__main__": a, b, c = Node("A"), Node("B"), Node("C") a.connect(b) b.connect(c) a.broadcast("hello") 解释与原理 P2P 的难点在于“无中心”。需要通过节点发现与路由机制保证请求可达。 ...

为什么 CGI 的扩展性不好：进程模型的代价

副标题 / 摘要 CGI 每个请求启动一个进程，带来巨大启动与切换成本。本文解释为什么 CGI 难以扩展。目标读者学习 Web 架构的开发者关注性能瓶颈的工程师需要理解历史技术限制的人背景 / 动机 CGI 是早期 Web 方案，但在高并发场景很快暴露性能问题。理解原因有助于理解现代 Web 服务器的演进。核心概念进程模型：每请求一个进程上下文切换：进程切换成本高冷启动：启动解释器与加载环境实践指南 / 步骤理解 CGI 的执行流程评估进程启动与切换开销比较常驻进程模型（FastCGI/WSGI）选择更高效的服务模型可运行示例 # 模拟进程启动成本 import subprocess import time def spawn_cost(n=5): start = time.time() for _ in range(n): subprocess.run(["/bin/true"], check=True) return time.time() - start if __name__ == "__main__": print(spawn_cost()) 解释与原理 CGI 需要频繁启动进程与加载运行环境，导致延迟高、吞吐低。常驻进程模型可以复用资源，显著提升性能。常见问题与注意事项 CGI 一定不能用吗？低并发场景仍可使用，但成本高。 ...

如何设计磁盘碎片整理：目标、步骤与权衡

副标题 / 摘要碎片整理的目标是减少随机寻道，提高顺序读写性能。本文给出设计流程与简化实现。目标读者学习系统设计的开发者关注存储性能的工程师想理解“数据布局优化”的人背景 / 动机文件频繁增删会导致数据块分散。碎片整理通过“重排布局”提升连续读写效率。核心概念碎片：文件块分散在多个位置压缩（Compaction）：把数据块向前聚集元数据更新：移动块后更新索引实践指南 / 步骤扫描磁盘找到空洞与数据块规划移动顺序，避免覆盖逐块移动并更新元数据验证一致性并生成报告可运行示例 # 简化模型：1 表示数据块，0 表示空洞 def defragment(blocks): write = 0 for read in range(len(blocks)): if blocks[read] == 1: blocks[write], blocks[read] = blocks[read], blocks[write] write += 1 return blocks if __name__ == "__main__": data = [1, 0, 1, 0, 1, 0, 0, 1] print(defragment(data)) 解释与原理通过双指针把所有数据块向前移动，实现“紧凑布局”。现实文件系统还需要处理文件连续性与元数据同步。常见问题与注意事项整理期间如何保证数据不丢？需要日志与校验。整理会影响系统性能吗？会，通常在低峰期进行。 SSD 还需要碎片整理吗？需求较低，但仍需维护磨损均衡。最佳实践与建议使用快照或日志保护数据控制整理窗口，避免影响业务定期评估碎片率小结 / 结论碎片整理是“数据布局优化”的工程问题，需要性能与安全的平衡。核心在于安全移动与元数据一致性。 ...

写一个基础 Web 服务器：最小可用实现

副标题 / 摘要从 socket 到 HTTP 响应，最小 Web 服务器可以帮助理解网络协议的关键流程。本文给出可运行示例。目标读者想理解 HTTP 与 socket 的开发者学习网络编程的工程师需要构建服务端基础的人背景 / 动机很多 Web 框架屏蔽了底层细节。写一个最小服务器能帮助理解请求解析、响应构造与连接管理。核心概念 Socket：网络通信的基础接口 HTTP 请求/响应：文本协议监听/接受连接：服务端循环实践指南 / 步骤监听端口接受连接并读取请求构造 HTTP 响应并返回关闭连接可运行示例 import socket def run(host="127.0.0.1", port=8080): s = socket.socket(socket.AF_INET, socket.SOCK_STREAM) s.setsockopt(socket.SOL_SOCKET, socket.SO_REUSEADDR, 1) s.bind((host, port)) s.listen(1) print("listening on", port) conn, _ = s.accept() data = conn.recv(1024) if data: body = "Hello" resp = ( "HTTP/1.1 200 OK\r\n" f"Content-Length: {len(body)}\r\n" "Content-Type: text/plain\r\n\r\n" f"{body}" ) conn.sendall(resp.encode("utf-8")) conn.close() s.close() if __name__ == "__main__": run() 解释与原理服务器需要：监听 → 接受连接 → 读取请求 → 返回响应。 HTTP 是文本协议，因此构造响应字符串即可。 ...

为什么需要并发：吞吐、延迟与资源利用率

副标题 / 摘要并发不是为了“更快”，而是为了更好地利用等待时间。本文解释并发的价值，并给出工程实践的判断与示例。目标读者希望提升系统吞吐的后端工程师经常处理 I/O 等待的开发者需要做性能与架构决策的技术负责人背景 / 动机很多程序在等待 I/O（磁盘、网络、数据库）时并不占用 CPU。并发让 CPU 在等待期间去做别的事，从而提高吞吐、降低整体延迟。核心概念吞吐（Throughput）：单位时间内处理的请求数量延迟（Latency）：单个请求完成的时间 I/O 等待：CPU 空闲但任务阻塞并行与并发：并行是同时执行，并发是交错执行实践指南 / 步骤判断瓶颈是否来自 I/O 优先使用异步或多线程处理 I/O 对 CPU 计算使用并行限制并发度，避免过度上下文切换监控吞吐与尾延迟可运行示例下面对比串行与并发请求： import time import threading def io_task(i): time.sleep(0.2) return i def serial(n): start = time.time() for i in range(n): io_task(i) return time.time() - start def concurrent(n): start = time.time() threads = [] for i in range(n): t = threading.Thread(target=io_task, args=(i,)) t.start() threads.append(t) for t in threads: t.join() return time.time() - start if __name__ == "__main__": print("serial:", serial(5)) print("concurrent:", concurrent(5)) 解释与原理串行执行时，5 个 I/O 等待累加。并发执行时，等待时间重叠，整体耗时接近单个 I/O 的时间。 ...

缓存大小如何确定：命中率、成本与稳定性

副标题 / 摘要缓存大小不是拍脑袋，而是命中率、成本与稳定性之间的平衡。本文给出确定缓存大小的工程方法。目标读者负责缓存系统和性能优化的工程师做容量规划与成本控制的团队需要提升命中率与稳定性的开发者背景 / 动机缓存太小会导致频繁穿透，太大则成本高且失效风险增加。正确做法是用数据驱动的方式确定缓存大小。核心概念命中率（Hit Rate）：缓存命中 / 总请求工作集（Working Set）：短期内频繁访问的数据集合淘汰策略：LRU/LFU 等成本曲线：边际命中率收益逐渐降低实践指南 / 步骤采集访问分布（热度、访问频率）估算工作集大小用不同容量做离线回放评估命中率与成本曲线预留安全余量（波峰期、突发流量）可运行示例下面模拟不同缓存容量的命中率： from collections import OrderedDict def lru_hit_rate(requests, capacity): cache = OrderedDict() hits = 0 for key in requests: if key in cache: hits += 1 cache.move_to_end(key) else: if len(cache) >= capacity: cache.popitem(last=False) cache[key] = True return hits / len(requests) if __name__ == "__main__": reqs = [1,2,3,1,2,4,1,2,3,5,1,2,3,4] for cap in [1, 2, 3, 4]: print(cap, lru_hit_rate(reqs, cap)) 解释与原理缓存大小的收益是递减的：容量越大，新增命中率提升越小。因此需要找到“边际收益开始下降”的拐点，而不是盲目扩容。 ...

什么是流式处理（Streaming）：概念与实现方式

副标题 / 摘要流式处理的核心是“边到边算”，避免一次性加载全部数据。本文解释流的概念、适用场景与实现方式。目标读者需要处理大数据或实时数据的工程师想理解流式模型的开发者对性能优化有兴趣的团队背景 / 动机在数据量大或实时性要求高的场景中，一次性加载全部数据会导致内存浪费与延迟。流式处理通过“逐条处理”降低内存占用与延迟。核心概念流（Stream）：数据项按时间或顺序到达管道（Pipeline）：处理步骤串联惰性计算：只有需要时才计算下一项实践指南 / 步骤把数据源转换为迭代器/生成器用管道组合处理步骤避免全量加载，只保留必要状态为每一步设定可观测指标可运行示例 def source(): for i in range(1, 11): yield i def filter_even(stream): for x in stream: if x % 2 == 0: yield x def map_square(stream): for x in stream: yield x * x def sink(stream): for x in stream: print(x) if __name__ == "__main__": stream = source() stream = filter_even(stream) stream = map_square(stream) sink(stream) 解释与原理流式模型通过“惰性迭代”把计算拆成小块。这样既降低了内存占用，也能更快得到部分结果。 ...

什么是实时系统：与普通系统的关键区别

副标题 / 摘要实时系统的核心不是“快”，而是“可预测”。本文解释实时系统与普通系统的差异，并给出工程落地要点。目标读者做嵌入式、自动控制、工业系统的工程师需要理解时限约束的后端开发者想区分“高性能”与“实时性”的技术负责人背景 / 动机很多系统不只要求快，还要求“按时”。比如刹车控制、心电监测、工业自动化等，错过时限比“慢一点”更危险。核心概念硬实时（Hard RT）：错过时限等同失败软实时（Soft RT）：偶尔错过仍可接受确定性（Determinism）：执行时间可预测时限（Deadline）：任务必须完成的时间点实践指南 / 步骤定义时限与容忍度（硬实时/软实时）测量最坏情况执行时间（WCET）选择合适调度策略（如固定优先级）限制不可预测行为（GC、动态分配、锁竞争）建立监控与超时策略可运行示例下面示例用简单的“任务+时限”判断是否满足实时要求： from typing import List, Tuple def is_schedulable(tasks: List[Tuple[int, int]]) -> bool: # (runtime, deadline) time = 0 for runtime, deadline in tasks: time += runtime if time > deadline: return False return True if __name__ == "__main__": print(is_schedulable([(2, 3), (1, 5), (2, 7)])) # True print(is_schedulable([(2, 3), (3, 4)])) # False 解释与原理普通系统关注平均吞吐和响应时间，而实时系统关注“最坏情况”。只要存在无法预测的延迟（GC 停顿、锁竞争、I/O 抖动），就会破坏实时性。 ...

实时语言与堆内存分配：为什么动态分配会破坏实时性

副标题 / 摘要实时系统追求可预测性，而堆分配与 GC 往往引入不可控延迟。本文解释二者关系，并提供工程替代策略。目标读者做实时/嵌入式系统的工程师关注性能与确定性的开发者需要制定内存策略的技术负责人背景 / 动机在实时系统里，“偶尔慢”也可能是灾难。堆分配和垃圾回收会带来不可预测的暂停和抖动，这与实时性天然冲突。核心概念堆分配：运行期动态申请内存 GC 暂停：回收时的停顿导致时延不可控确定性：最坏情况可预测静态分配：编译期或启动期分配实践指南 / 步骤避免运行期频繁分配使用对象池/环形缓冲关键路径使用栈或静态内存把 GC 影响隔离在非实时线程做最坏情况延迟测试可运行示例下面对比“堆分配”与“静态数组”的模式： #include <stdio.h> #include <stdlib.h> #define N 1024 static int buffer[N]; int main(void) { // 静态分配：可预测 for (int i = 0; i < N; ++i) buffer[i] = i; // 动态分配：可能触发不可预测延迟 int *heap = (int *)malloc(sizeof(int) * N); if (!heap) return 1; for (int i = 0; i < N; ++i) heap[i] = i; free(heap); printf("done\n"); return 0; } 解释与原理堆分配需要维护分配器状态，可能引发锁竞争与碎片整理。 GC 会在不确定的时间触发暂停。这些都让最坏时延不可预测，因此实时语言往往限制或避免堆分配。 ...