Jeanphilo Blog

为什么并发测试很难：非确定性与时序爆炸

副标题 / 摘要并发测试困难的根源在于非确定性与时序组合爆炸。本文解释为什么难、难在哪里，并给出工程实践建议。目标读者做并发/多线程开发的工程师负责可靠性与测试的团队想理解“偶发 bug”为何难测的人背景 / 动机并发 bug 往往“偶发、难复现、线上才出现”。这是因为并发调度不可预测，导致测试难以覆盖所有时序组合。核心概念非确定性：调度顺序不可预测时序组合爆炸：线程交错排列数量巨大 Heisenbug：调试本身改变时序可复现性：复现条件苛刻实践指南 / 步骤把并发边界缩小（减少共享状态）引入确定性调度或模拟器使用竞态检测工具（如 TSAN）加大压力与重复运行（概率提高）记录关键事件与时间线可运行示例下面例子展示“偶发错误”很难稳定复现： import threading x = 0 def worker(): global x for _ in range(100000): x += 1 if __name__ == "__main__": threads = [threading.Thread(target=worker) for _ in range(2)] for t in threads: t.start() for t in threads: t.join() print(x) 在某些语言/环境下会出现不一致结果，这就是并发非确定性。解释与原理并发执行时，读-改-写不是原子操作。调度顺序变化会导致结果不同，而这类问题很难通过少量测试覆盖。 ...

为什么不该自己设计密码学：风险、误区与替代方案

副标题 / 摘要自创密码学看似灵活，实则极易出错。本文解释为什么不应自己设计加密算法，并给出工程级替代方案。目标读者需要实现安全功能的工程师想理解密码学风险的开发者负责安全合规的技术负责人背景 / 动机密码学的可靠性来自数学证明与长期公开审计。未经验证的自创算法，几乎一定存在未知漏洞，且往往在上线后才暴露。核心概念公开审计：安全算法需经长期社区验证威胁模型：攻击者能力远超一般想象实现安全：算法正确 ≠ 实现安全实践指南 / 步骤使用成熟标准（AES-GCM、ChaCha20-Poly1305）使用成熟库（libsodium、OpenSSL）明确威胁模型并选择合适协议避免自定义模式/参数做安全评审与渗透测试可运行示例下面用 Python 的标准库做安全加密示例（AES-GCM）： from cryptography.hazmat.primitives.ciphers.aead import AESGCM import os key = AESGCM.generate_key(bit_length=128) aesgcm = AESGCM(key) nonce = os.urandom(12) plaintext = b"hello" ciphertext = aesgcm.encrypt(nonce, plaintext, None) print(ciphertext) 解释与原理安全算法需要满足机密性、完整性、可验证性等多项指标。自创算法往往忽略边界条件、随机性、密钥管理等关键问题。常见问题与注意事项算法简单就更安全吗？不。简单可能意味着可被轻易破解。自己设计能防止被破解吗？不。攻击者会逆向、分析、利用弱点。使用库就安全吗？前提是正确使用（模式、随机数、密钥管理）。最佳实践与建议不要自创算法或自定义加密模式使用经过审计的库与标准关注密钥管理与随机数来源小结 / 结论自创密码学的风险远高于收益。使用成熟算法和库，是工程安全的基本常识。参考与延伸阅读 Cryptography Engineering libsodium / OpenSSL 官方文档 NIST 推荐算法列表元信息阅读时长：7~9 分钟标签：密码学、安全、工程实践 SEO 关键词：不要自创密码学, 加密算法元描述：解释为什么不应自创密码学，并给出替代方案。行动号召（CTA）检查一次你项目的加密实现，确认是否使用了标准算法与库。

为什么需要并发：吞吐、延迟与资源利用率

副标题 / 摘要并发不是为了“更快”，而是为了更好地利用等待时间。本文解释并发的价值，并给出工程实践的判断与示例。目标读者希望提升系统吞吐的后端工程师经常处理 I/O 等待的开发者需要做性能与架构决策的技术负责人背景 / 动机很多程序在等待 I/O（磁盘、网络、数据库）时并不占用 CPU。并发让 CPU 在等待期间去做别的事，从而提高吞吐、降低整体延迟。核心概念吞吐（Throughput）：单位时间内处理的请求数量延迟（Latency）：单个请求完成的时间 I/O 等待：CPU 空闲但任务阻塞并行与并发：并行是同时执行，并发是交错执行实践指南 / 步骤判断瓶颈是否来自 I/O 优先使用异步或多线程处理 I/O 对 CPU 计算使用并行限制并发度，避免过度上下文切换监控吞吐与尾延迟可运行示例下面对比串行与并发请求： import time import threading def io_task(i): time.sleep(0.2) return i def serial(n): start = time.time() for i in range(n): io_task(i) return time.time() - start def concurrent(n): start = time.time() threads = [] for i in range(n): t = threading.Thread(target=io_task, args=(i,)) t.start() threads.append(t) for t in threads: t.join() return time.time() - start if __name__ == "__main__": print("serial:", serial(5)) print("concurrent:", concurrent(5)) 解释与原理串行执行时，5 个 I/O 等待累加。并发执行时，等待时间重叠，整体耗时接近单个 I/O 的时间。 ...

不变性为何让代码更安全：Immutability 的价值与边界

副标题 / 摘要不变性并不是“不能改”，而是“用新值替代旧值”。本文解释它如何降低错误、提升可测试性，并给出工程落地方式。目标读者经常处理共享状态与并发的工程师需要提升可测试性与可维护性的开发者对函数式思想有兴趣的团队负责人背景 / 动机大量线上问题来自“意外修改”：某个函数悄悄改了共享对象，导致后续逻辑出现不可预期的结果。不变性让“修改”变成显式的“新值生成”，错误更容易被发现与隔离。核心概念不可变性：对象创建后不再改变共享状态风险：多个模块引用同一对象，任何修改都会外溢副作用：函数内部改变了外部可观察状态实践指南 / 步骤在核心逻辑中优先使用不可变数据结构把“修改”改写为“返回新值” 把副作用集中在边界层（IO、缓存、DB）使用类型或工具强制不可变（如 frozen）可运行示例 from dataclasses import dataclass, replace @dataclass(frozen=True) class Order: id: int price: int def apply_discount(order: Order, rate: float) -> Order: new_price = int(order.price * (1 - rate)) return replace(order, price=new_price) if __name__ == "__main__": o1 = Order(id=1, price=100) o2 = apply_discount(o1, 0.2) print(o1, o2) 解释与原理不变性让“状态变化”变成显式的数据流。当对象不能被修改时，共享引用不会造成隐式副作用，测试也更容易覆盖到边界条件。 ...

缓存大小如何确定：命中率、成本与稳定性

副标题 / 摘要缓存大小不是拍脑袋，而是命中率、成本与稳定性之间的平衡。本文给出确定缓存大小的工程方法。目标读者负责缓存系统和性能优化的工程师做容量规划与成本控制的团队需要提升命中率与稳定性的开发者背景 / 动机缓存太小会导致频繁穿透，太大则成本高且失效风险增加。正确做法是用数据驱动的方式确定缓存大小。核心概念命中率（Hit Rate）：缓存命中 / 总请求工作集（Working Set）：短期内频繁访问的数据集合淘汰策略：LRU/LFU 等成本曲线：边际命中率收益逐渐降低实践指南 / 步骤采集访问分布（热度、访问频率）估算工作集大小用不同容量做离线回放评估命中率与成本曲线预留安全余量（波峰期、突发流量）可运行示例下面模拟不同缓存容量的命中率： from collections import OrderedDict def lru_hit_rate(requests, capacity): cache = OrderedDict() hits = 0 for key in requests: if key in cache: hits += 1 cache.move_to_end(key) else: if len(cache) >= capacity: cache.popitem(last=False) cache[key] = True return hits / len(requests) if __name__ == "__main__": reqs = [1,2,3,1,2,4,1,2,3,5,1,2,3,4] for cap in [1, 2, 3, 4]: print(cap, lru_hit_rate(reqs, cap)) 解释与原理缓存大小的收益是递减的：容量越大，新增命中率提升越小。因此需要找到“边际收益开始下降”的拐点，而不是盲目扩容。 ...

可变值 vs 不可变值：优缺点、成本与工程选择

副标题 / 摘要可变值带来性能与直觉操作，不可变值带来安全与可预测性。本文从工程角度给出取舍指南。目标读者需要做语言/架构选型的开发者经常处理共享状态与并发的工程师想降低 bug 成本的团队负责人背景 / 动机 “用可变还是不可变”常被当成风格问题，但本质是成本问题：可变值降低了短期编码成本，却提高了长期维护成本；不可变值相反。核心概念可变值：对象可被修改，引用指向同一状态不可变值：对象创建后不可变，修改通过创建新值别名问题：多个引用指向同一对象导致隐式副作用实践指南 / 步骤核心业务规则优先用不可变性能敏感且局部范围内用可变共享数据优先不可变用类型或约定明确边界在接口处转换：可变在边界层，不可变在核心层可运行示例下面展示共享可变带来的副作用： nums = [1, 2, 3] ref = nums ref.append(4) print(nums) # [1, 2, 3, 4] 不可变方式： nums = (1, 2, 3) ref = nums ref = ref + (4,) print(nums) # (1, 2, 3) print(ref) # (1, 2, 3, 4) 解释与原理可变值让“状态变化”隐式发生，易产生别名问题；不可变值把变化变成显式的新值，便于推理与测试。常见问题与注意事项不可变一定更慢吗？不一定。结构共享与持久化数据结构可以降低成本。可变值是不是更直观？对局部数据更直观，但对共享状态更危险。如何混用？常见做法是“核心域不可变，边界层可变”。最佳实践与建议在并发场景优先不可变在性能关键、局部封闭场景用可变给团队建立明确的可变/不可变规范小结 / 结论可变值适合局部与性能场景，不可变值适合共享与核心逻辑。真正的工程实践不是二选一，而是分层与约束。 ...

如何在不可靠协议上构建可靠通信：重传、确认与顺序

副标题 / 摘要不可靠协议上构建可靠通信的核心是：确认、超时、重传与顺序控制。本文给出工程要点与简化实现示例。目标读者需要理解可靠传输机制的后端工程师设计自定义协议的开发者对网络底层原理有兴趣的同学背景 / 动机 UDP 等不可靠协议不保证送达、不保证顺序。但许多业务需要可靠性：日志上报、订单同步、状态更新等。因此需要在应用层补齐可靠性能力。核心概念 ACK 确认：接收方回执超时重传：超时未确认就重发序列号：保证顺序与去重窗口机制：提升吞吐（Stop-and-Wait / Sliding Window）实践指南 / 步骤每个消息加序列号接收端发送 ACK 发送端设置超时重传去重与乱序处理必要时加入滑动窗口可运行示例下面用“丢包概率 + 重试”模拟可靠发送： import random import time def unreliable_send(loss_rate: float) -> bool: return random.random() > loss_rate def send_reliable(data: str, loss_rate=0.3, timeout=0.1, max_retry=10): for attempt in range(1, max_retry + 1): ok = unreliable_send(loss_rate) if ok: return attempt time.sleep(timeout) return None if __name__ == "__main__": tries = send_reliable("hello", loss_rate=0.4) print("delivered after", tries, "tries") 解释与原理可靠传输的本质是“在不可靠通道上建立协议保障”。 ACK 表示已收到，超时重传保证最终送达，序列号避免重复与乱序。 ...

什么是 O/R 阻抗失衡：对象世界与关系模型的冲突

副标题 / 摘要 O/R 阻抗失衡指对象模型与关系模型的结构和语义不一致，导致映射复杂、性能问题和维护成本上升。本文给出可落地的缓解策略。目标读者使用 ORM 的后端工程师负责数据建模与性能优化的开发者想理解“为什么 ORM 不是银弹”的团队负责人背景 / 动机对象世界是图结构（引用、继承、聚合），关系世界是表结构（行、列、外键）。两者语义不同，映射时必然损失与扭曲，这就是 O/R 阻抗失衡。核心概念对象图：一对多、多对多关系关系模型：表与外键，依赖 JOIN 映射成本：查询复杂、N+1、延迟加载等实践指南 / 步骤先设计数据访问模式，再设计模型结构为读与写设计不同模型（CQRS 思路）控制对象图深度，避免自动级联查询使用 DTO 作为边界，减少 ORM 泄漏对关键路径手写 SQL 可运行示例下面示例展示对象与关系的差异： import sqlite3 conn = sqlite3.connect(":memory:") cur = conn.cursor() cur.execute("CREATE TABLE user(id INTEGER PRIMARY KEY, name TEXT)") cur.execute("CREATE TABLE orders(id INTEGER PRIMARY KEY, user_id INTEGER, amount INTEGER)") cur.execute("INSERT INTO user VALUES (1, 'Alice')") cur.executemany("INSERT INTO orders VALUES (?, ?, ?)", [(1, 1, 100), (2, 1, 200)]) cur.execute("SELECT u.name, o.amount FROM user u JOIN orders o ON u.id = o.user_id") print(cur.fetchall()) 解释与原理对象模型喜欢“引用”和“聚合”，而关系模型喜欢“表”和“JOIN”。 ORM 需要在两种语义之间做折中，这就产生了性能与复杂度问题。 ...

什么是流式处理（Streaming）：概念与实现方式

副标题 / 摘要流式处理的核心是“边到边算”，避免一次性加载全部数据。本文解释流的概念、适用场景与实现方式。目标读者需要处理大数据或实时数据的工程师想理解流式模型的开发者对性能优化有兴趣的团队背景 / 动机在数据量大或实时性要求高的场景中，一次性加载全部数据会导致内存浪费与延迟。流式处理通过“逐条处理”降低内存占用与延迟。核心概念流（Stream）：数据项按时间或顺序到达管道（Pipeline）：处理步骤串联惰性计算：只有需要时才计算下一项实践指南 / 步骤把数据源转换为迭代器/生成器用管道组合处理步骤避免全量加载，只保留必要状态为每一步设定可观测指标可运行示例 def source(): for i in range(1, 11): yield i def filter_even(stream): for x in stream: if x % 2 == 0: yield x def map_square(stream): for x in stream: yield x * x def sink(stream): for x in stream: print(x) if __name__ == "__main__": stream = source() stream = filter_even(stream) stream = map_square(stream) sink(stream) 解释与原理流式模型通过“惰性迭代”把计算拆成小块。这样既降低了内存占用，也能更快得到部分结果。 ...

什么是实时系统：与普通系统的关键区别

副标题 / 摘要实时系统的核心不是“快”，而是“可预测”。本文解释实时系统与普通系统的差异，并给出工程落地要点。目标读者做嵌入式、自动控制、工业系统的工程师需要理解时限约束的后端开发者想区分“高性能”与“实时性”的技术负责人背景 / 动机很多系统不只要求快，还要求“按时”。比如刹车控制、心电监测、工业自动化等，错过时限比“慢一点”更危险。核心概念硬实时（Hard RT）：错过时限等同失败软实时（Soft RT）：偶尔错过仍可接受确定性（Determinism）：执行时间可预测时限（Deadline）：任务必须完成的时间点实践指南 / 步骤定义时限与容忍度（硬实时/软实时）测量最坏情况执行时间（WCET）选择合适调度策略（如固定优先级）限制不可预测行为（GC、动态分配、锁竞争）建立监控与超时策略可运行示例下面示例用简单的“任务+时限”判断是否满足实时要求： from typing import List, Tuple def is_schedulable(tasks: List[Tuple[int, int]]) -> bool: # (runtime, deadline) time = 0 for runtime, deadline in tasks: time += runtime if time > deadline: return False return True if __name__ == "__main__": print(is_schedulable([(2, 3), (1, 5), (2, 7)])) # True print(is_schedulable([(2, 3), (3, 4)])) # False 解释与原理普通系统关注平均吞吐和响应时间，而实时系统关注“最坏情况”。只要存在无法预测的延迟（GC 停顿、锁竞争、I/O 抖动），就会破坏实时性。 ...