Jeanphilo Blog

如何排序 10GB 文件：外部排序的工程方案

副标题 / 摘要内存无法容纳 10GB 数据时，外部排序是标准方案。本文介绍分块排序与多路归并。目标读者需要处理大文件的工程师学习外部排序算法的读者关注磁盘 I/O 优化的人背景 / 动机当数据量超过内存容量，传统内存排序会失败。外部排序通过“分块 + 多路归并”解决问题。核心概念分块排序：把大文件拆成可放入内存的小块多路归并：合并多个有序块磁盘 I/O：顺序读写优于随机读写实践指南 / 步骤按内存容量分块读取每块内存排序并写回磁盘多路归并所有有序块尽量顺序读写减少随机 I/O 可运行示例 # 简化示例：分块排序 + 归并 import heapq def merge_sorted(chunks): heap = [] for i, chunk in enumerate(chunks): if chunk: heapq.heappush(heap, (chunk[0], i, 0)) result = [] while heap: val, i, j = heapq.heappop(heap) result.append(val) if j + 1 < len(chunks[i]): heapq.heappush(heap, (chunks[i][j + 1], i, j + 1)) return result if __name__ == "__main__": chunks = [sorted([3, 1, 2]), sorted([9, 7, 8])] print(merge_sorted(chunks)) 解释与原理外部排序的核心是把“大问题拆成小问题”，每块可在内存中排序。最后通过多路归并生成整体有序序列。 ...

如何排序 10TB 数据：分布式排序思路

副标题 / 摘要 10TB 数据无法在单机完成排序。本文介绍分布式排序的核心流程与工程要点。目标读者处理大规模数据的工程师学习分布式系统的开发者关注数据处理流程的人背景 / 动机数据规模超过单机能力时，必须通过分布式拆分与并行归并完成排序。这涉及数据切分、网络传输与容错。核心概念分片（Shard）：数据切分到多个节点 Shuffle：按 key 重新分配数据分布式归并：跨节点合并有序块实践指南 / 步骤按范围或哈希切分数据各节点本地排序 Shuffle 让相同范围的数据聚集全局归并并输出结果可运行示例 # 简化的“分片排序”示意 def shard_sort(chunks): return [sorted(c) for c in chunks] def merge_two(a, b): i = j = 0 res = [] while i < len(a) and j < len(b): if a[i] < b[j]: res.append(a[i]); i += 1 else: res.append(b[j]); j += 1 res.extend(a[i:]) res.extend(b[j:]) return res if __name__ == "__main__": shards = shard_sort([[3, 1], [4, 2]]) print(merge_two(shards[0], shards[1])) 解释与原理分布式排序的关键在于“局部排序 + 全局归并”。 Shuffle 会成为主要瓶颈，需要优化网络与分区策略。 ...

如何设计磁盘碎片整理：目标、步骤与权衡

副标题 / 摘要碎片整理的目标是减少随机寻道，提高顺序读写性能。本文给出设计流程与简化实现。目标读者学习系统设计的开发者关注存储性能的工程师想理解“数据布局优化”的人背景 / 动机文件频繁增删会导致数据块分散。碎片整理通过“重排布局”提升连续读写效率。核心概念碎片：文件块分散在多个位置压缩（Compaction）：把数据块向前聚集元数据更新：移动块后更新索引实践指南 / 步骤扫描磁盘找到空洞与数据块规划移动顺序，避免覆盖逐块移动并更新元数据验证一致性并生成报告可运行示例 # 简化模型：1 表示数据块，0 表示空洞 def defragment(blocks): write = 0 for read in range(len(blocks)): if blocks[read] == 1: blocks[write], blocks[read] = blocks[read], blocks[write] write += 1 return blocks if __name__ == "__main__": data = [1, 0, 1, 0, 1, 0, 0, 1] print(defragment(data)) 解释与原理通过双指针把所有数据块向前移动，实现“紧凑布局”。现实文件系统还需要处理文件连续性与元数据同步。常见问题与注意事项整理期间如何保证数据不丢？需要日志与校验。整理会影响系统性能吗？会，通常在低峰期进行。 SSD 还需要碎片整理吗？需求较低，但仍需维护磨损均衡。最佳实践与建议使用快照或日志保护数据控制整理窗口，避免影响业务定期评估碎片率小结 / 结论碎片整理是“数据布局优化”的工程问题，需要性能与安全的平衡。核心在于安全移动与元数据一致性。 ...

如何向 5 岁孩子解释 Unicode

副标题 / 摘要 Unicode 像一本“全世界字典”，每个字符都有编号。本文用儿童友好的方式解释它。目标读者想用简单方式解释技术概念的开发者需要做科普或培训的工程师初学者与非技术读者背景 / 动机不同国家有不同文字，如果没有统一编号，会导致“乱码”。 Unicode 就是为了让电脑理解全世界的字符。核心概念字符：文字或符号编号：每个字符一个唯一数字编码：把数字变成字节保存实践指南 / 步骤把字符想象成卡片每张卡片都有编号电脑只存编号显示时再变回卡片可运行示例 # 查看字符的 Unicode 编号 print(ord("A")) print(ord("中")) print(chr(65)) 解释与原理 Unicode 就像“全世界共同的字典”。每个字符都有编号，电脑存编号，显示时再查字典。常见问题与注意事项 Unicode 和 UTF-8 有什么关系？ Unicode 是编号，UTF-8 是保存编号的方法。为什么会乱码？用了错误的编码方式读取。 Unicode 包含表情吗？是的，表情也有编号。最佳实践与建议统一使用 UTF-8 处理文本时明确编码避免在系统间混用编码小结 / 结论 Unicode 是“全世界字符的编号体系”。理解它能避免乱码，并支持多语言。参考与延伸阅读 Unicode 官方网站 UTF-8 规范元信息阅读时长：5~7 分钟标签：Unicode、编码 SEO 关键词：Unicode, UTF-8 元描述：用简单类比解释 Unicode。行动号召（CTA）尝试输出几种不同语言的字符，看看它们的 Unicode 编号。

如何向 5 岁孩子解释数据库事务

副标题 / 摘要事务像“要么全部成功，要么全都不做”的规则。本文用简单故事解释它。目标读者需要做科普的开发者初学者与非技术读者想更好解释概念的工程师背景 / 动机事务看起来抽象，但可以用生活中的“成套动作”来理解。比如“付钱和拿到东西”必须一起完成。核心概念原子性：要么全部成功，要么全部失败一致性：规则必须被遵守持久性：完成的结果不会消失实践指南 / 步骤讲一个买糖果的故事强调钱和糖果必须同时完成如果其中一步失败就取消说明成功后结果不会被抹掉可运行示例 # 简化事务示意：买糖果 def buy(cash, candy_price): if cash < candy_price: return cash, 0 # 失败，什么都没发生 return cash - candy_price, 1 # 成功，钱少了糖果多了 if __name__ == "__main__": print(buy(5, 3)) print(buy(2, 3)) 解释与原理事务就是“成套动作必须一起完成”。这样可以避免“钱扣了但糖果没给”的情况。常见问题与注意事项事务一定很慢吗？不一定，但确实需要更多保障。所有操作都需要事务吗？不需要，只有关键操作才用。事务与锁有关系吗？有，锁保证并发安全。最佳实践与建议用生活例子解释复杂概念强调“要么全做，要么不做” 对关键操作使用事务小结 / 结论事务就像一套必须一起完成的动作。它让系统在出错时也能保持正确。参考与延伸阅读数据库事务基础 ACID 原理元信息阅读时长：5~7 分钟标签：事务、科普 SEO 关键词：事务解释, ACID 元描述：用儿童类比解释数据库事务。行动号召（CTA）尝试用“现实故事”解释一个复杂技术概念给身边的人。

实现 rnd()：从基础随机数到可控随机

副标题 / 摘要随机数生成是很多算法的基础。本文用线性同余法实现一个可复现的 rnd()。目标读者学习随机算法的开发者需要理解 PRNG 的工程师算法与系统基础学习者背景 / 动机大多数语言的随机数来自伪随机算法。理解基础实现有助于评估随机性与可复现性。核心概念伪随机数（PRNG）：由公式生成的序列种子（Seed）：决定序列起点可复现性：同样种子产生相同序列实践指南 / 步骤选择线性同余参数用种子初始化状态每次调用更新状态并输出将结果归一化到 [0,1) 可运行示例 class LCG: def __init__(self, seed=1): self.mod = 2 ** 31 self.a = 1103515245 self.c = 12345 self.state = seed def rnd(self): self.state = (self.a * self.state + self.c) % self.mod return self.state / self.mod if __name__ == "__main__": rng = LCG(seed=42) for _ in range(3): print(rng.rnd()) 解释与原理线性同余法是最简单的 PRNG： state = (a * state + c) mod m。它速度快，但随机性质量有限。 ...

手写一个最小的垃圾回收器：标记-清除模型

副标题 / 摘要标记-清除是最基础的垃圾回收模型。本文用简化示例解释“可达性”与回收过程。目标读者想理解 GC 原理的开发者系统编程与语言设计学习者关注内存管理的工程师背景 / 动机手动内存管理容易出错，而 GC 通过“可达性”自动回收对象。理解基础模型有助于调试内存问题。核心概念根集合（Roots）：直接可达的对象可达性：从根出发可访问到的对象标记-清除：标记存活对象，清除不可达对象实践指南 / 步骤构建对象图与引用关系从根集合进行标记遍历清除未被标记的对象输出回收结果可运行示例 class Obj: def __init__(self, name): self.name = name self.refs = [] self.marked = False def mark(obj): if obj.marked: return obj.marked = True for r in obj.refs: mark(r) def sweep(heap): return [o for o in heap if o.marked] if __name__ == "__main__": a = Obj("a") b = Obj("b") c = Obj("c") a.refs.append(b) heap = [a, b, c] roots = [a] for r in roots: mark(r) heap = sweep(heap) print([o.name for o in heap]) # c 被回收解释与原理 GC 的核心是假设“不可达对象可以回收”。标记阶段找到存活对象，清除阶段释放其他对象。 ...

随机迷宫生成：深度优先回溯法

副标题 / 摘要随机迷宫生成常用深度优先回溯法。本文解释思路并提供可运行实现。目标读者学习图算法的开发者想做程序化生成的工程师算法入门学习者背景 / 动机迷宫生成是图遍历与随机化的经典结合。它能帮助理解 DFS、回溯与边界处理。核心概念网格图：迷宫格点和通道 DFS 回溯：随机探索与回退墙与通路：用字符表示结构实践指南 / 步骤初始化全墙网格从起点开始 DFS 随机选择未访问邻居并打通墙回溯直到全部访问完成可运行示例 import random def maze(w, h): grid = [["#"] * (2 * w + 1) for _ in range(2 * h + 1)] visited = [[False] * w for _ in range(h)] def carve(x, y): visited[y][x] = True dirs = [(1, 0), (-1, 0), (0, 1), (0, -1)] random.shuffle(dirs) for dx, dy in dirs: nx, ny = x + dx, y + dy if 0 <= nx < w and 0 <= ny < h and not visited[ny][nx]: grid[y * 2 + 1 + dy][x * 2 + 1 + dx] = " " grid[y * 2 + 1][x * 2 + 1] = " " grid[ny * 2 + 1][nx * 2 + 1] = " " carve(nx, ny) carve(0, 0) return "\n".join("".join(row) for row in grid) if __name__ == "__main__": print(maze(6, 4)) 解释与原理 DFS 回溯保证每个格子被访问一次，随机方向带来多样性。打通墙壁即可形成迷宫通路。 ...

随机生成不重复序列：洗牌法与采样法

副标题 / 摘要生成不重复随机序列的标准方法是洗牌。本文说明原理并提供可运行实现。目标读者学习随机算法的开发者需要抽样与随机化的工程师算法面试准备者背景 / 动机随机且不重复是很多场景的基础能力，例如抽奖、打乱顺序、采样。洗牌算法能保证均匀分布且复杂度可控。核心概念均匀随机：所有排列等概率洗牌（Fisher-Yates）：线性时间打乱采样：在大规模集合中取子集实践指南 / 步骤初始化序列从尾到头随机交换保证每一步的随机性输出最终序列可运行示例 import random def shuffle(nums): for i in range(len(nums) - 1, 0, -1): j = random.randint(0, i) nums[i], nums[j] = nums[j], nums[i] return nums if __name__ == "__main__": nums = list(range(1, 11)) print(shuffle(nums)) 解释与原理 Fisher-Yates 在第 i 步随机选择 [0..i] 中的元素交换。这样可保证所有排列等概率出现。常见问题与注意事项能否用 sort + random key？不建议，分布不一定均匀。是否需要固定随机种子？测试时建议固定，生产可随机。 ...

尾递归阶乘：把递归变成可优化形式

副标题 / 摘要尾递归可以把递归的“返回工作”提前完成，从而具备优化潜力。本文用阶乘示例说明概念与限制。目标读者学习递归与函数式思想的开发者需要写可读性强的算法代码的人关注性能的工程师背景 / 动机普通递归在返回阶段仍需要计算，导致栈帧无法复用。尾递归把“结果累积”放在参数里，使返回阶段无需额外计算。核心概念尾递归：递归调用是函数的最后一步累加器：把中间结果传入下一层尾调用优化（TCO）：编译器复用栈帧实践指南 / 步骤把中间结果写成累加器参数让递归调用成为最后一步确认语言是否支持尾调用优化在不支持 TCO 的语言改为迭代可运行示例 def fact_tail(n: int, acc: int = 1) -> int: if n <= 1: return acc return fact_tail(n - 1, acc * n) if __name__ == "__main__": print(fact_tail(5)) 解释与原理尾递归把计算提前完成，返回阶段只需返回结果。若语言支持 TCO，就能复用栈帧，避免栈溢出。常见问题与注意事项 Python 支持 TCO 吗？不支持，所以深度大仍会栈溢出。尾递归一定快吗？取决于语言与编译器优化。何时改为迭代？当递归深度不可控时。最佳实践与建议尾递归用于可读性与函数式风格在生产中评估语言是否支持 TCO 大规模递归优先使用迭代小结 / 结论尾递归提供了优化潜力，但效果依赖语言支持。理解其形式有助于写出更清晰的递归代码。 ...