Jeanphilo Blog

排序专题序章：如何选算法——时间/空间/稳定性/场景速查

用 ACERS 模板快速梳理常见排序算法的适用场景、复杂度、稳定性与工程实现，附多语言可运行示例与选型清单。

Alembic 入门：第一次用 SQLAlchemy 做数据库迁移

🐣 Alembic 入门：第一次用 SQLAlchemy 做数据库迁移 💡 副标题 / 摘要如果你已经在用 SQLAlchemy 操作数据库，却还在靠“手工改表结构 + 导出导入 SQL”来维护 schema，这篇文章会带你用最小成本上手 Alembic。我们会从 0 配置 Alembic 开始，一步步完成：生成迁移、升级/回滚数据库、和 SQLAlchemy 模型联动。 🎯 目标读者适合这样的你：已经在项目中使用 SQLAlchemy（ORM 或 Core 都行）；从未使用过 Alembic，或只懂 alembic upgrade head 这几个命令；想为自己的项目加上可回滚、可追踪、可审计的数据库结构变更；以 Python / Web 后端为主（Flask / FastAPI / 自研框架均可）。 🔥 背景 / 动机：为什么需要数据库迁移工具？没有 Alembic 时，我们通常怎么改数据库结构？在本地手改表结构（改字段、加索引）；导出 SQL 发给同事 / DBA；生产环境再手工执行一次；一旦出错，回滚非常痛苦。常见痛点：多人协作困难：谁先改？谁后改？改了什么？环境不一致：本地、测试、生产的表结构经常不一样；难以回滚：一旦上线发现问题，很难安全退回之前版本；审计困难：几年后根本不知道这个表为什么多了几个字段。 Alembic 做的事情可以总结为一句话： ...

如何干预 Alembic：从自动生成到精细控制

🧬 如何干预 Alembic：从自动生成到精细控制 💡 副标题 / 摘要大多数人用 Alembic 的方式是：改 SQLAlchemy 模型 → alembic revision --autogenerate → alembic upgrade head。但在真实项目里，你往往需要“插手”这条流水线：控制生成的迁移内容、插入数据迁移、在生产环境加保护、按分支管理多套 Schema…… 这篇文章会带你系统认识 “如何干预 Alembic”：从 env.py 到单个迁移脚本，从自动生成到手写数据迁移，让你能放心地在生产库上使用 Alembic，而不是被它“牵着走”。 🎯 目标读者适合以下读者：已在项目中使用 SQLAlchemy + Alembic；希望从“只会用 autogenerate”进阶到“懂得控制 Alembic 行为”；有生产库 / 多环境（dev、staging、prod）场景，需要更安全的迁移控制；想把数据迁移、自定义检查、安全保护加进 Alembic 流程的后端工程师。 🔥 背景 / 动机：为什么要“干预” Alembic？只使用 Alembic 的默认玩法，很容易遇到这些问题： --autogenerate 生成了一堆你不理解的操作，不敢在生产上跑；模型删了字段，自动生成的迁移脚本也直接删列，但生产上其实还有老数据需要兜底；想在迁移时顺便初始化一些字典表、配置表，但不知放在哪；有些表只在测试 / demo 环境需要，生产环境不想创建；多个服务共享一个数据库，需要按分支/模块控制迁移范围。要解决这些问题，你就必须学会：在 Alembic 的各个“接缝处”插入自己的逻辑。 ...

用 UFW + CrowdSec，彻底阻止恶意端口扫描：从 Fail2ban 踩坑到终极解决方案

🛡️ 用 UFW + CrowdSec，彻底阻止恶意端口扫描副标题 / 摘要：如何安全防护你的服务器暴露端口？本文带你从 Fail2ban 的正则地狱走出，构建一个稳定、自动化、智能化的端口扫描防御系统。 🎯 目标读者使用 FRP / 内网穿透的开发者管理云服务器（腾讯云、阿里云、AWS 等）的运维人员想防御端口扫描、SSH 暴力破解的新手或中级 Linux 用户对 Fail2ban 感兴趣、想升级到更现代安全体系的人想完善服务器安全方案的个人开发者 💢 背景 / 动机：为什么需要端口扫描防护？在运行 FRP（frps + frpc）或开放多个端口时，你的服务器通常会遭遇：海量扫描：每秒多次 SYN 探测恶意连接尝试：get a user connection […] SSH 密码爆破自动化脚本扫描 6001–6010、7000、22、8080 等常见端口传统做法存在痛点：防火墙（UFW）只能被动拒绝 Fail2ban 配置复杂、依赖正则、容易误判、不支持高级行为分析 FRPS 日志格式特殊，Fail2ban 很难匹配攻击会占用 frps/sshd 资源，最终导致卡顿、断流因此，我们需要一个无需写正则、能自动检测扫描、智能封禁恶意 IP 的现代防御体系。 📘 核心概念 FRP（frps / frpc）：用于内网穿透，常暴露大量 TCP 端口（如 6001–6010），容易被扫描。 UFW（Uncomplicated Firewall）：Ubuntu 默认防火墙，但缺乏智能检测功能。 Fail2ban：传统日志匹配型封禁工具，需要手写正则，踩坑概率高。 CrowdSec（推荐）：新一代开放式入侵防御系统 (IPS)，自动检测端口扫描和暴力破解，事件驱动 + 行为分析，资源消耗极低，是 Fail2ban 的现代替代。 🛠 实践指南：使用 CrowdSec 自动阻止端口扫描（Ubuntu/Debian） 1) 安装 CrowdSec curl -s https://packagecloud.io/install/repositories/crowdsec/crowdsec/script.deb.sh | sudo bash sudo apt install crowdsec -y 2) 安装防火墙封禁组件（iptables / ufw 自动配合） sudo apt install crowdsec-firewall-bouncer-iptables CrowdSec 会自动接管封禁动作。 ...

🛡️ WireGuard 全面指南：构建安全高速的私人内网（VPN 实战教程）

🛡️ WireGuard 全面指南：构建安全高速的私人内网（VPN 实战教程）副标题 / 摘要：本文是一篇适合初学者与中级用户的 WireGuard VPN 入门与实战指南。你将学会如何搭建高速、安全、现代化的内网，并实现“服务不暴露公网，只能通过 VPN 访问”的零信任式安全架构。 👤 目标读者想用 VPN 隐藏自己服务器/电脑端口的人想提高服务器安全性、避免被扫描的人希望构建私人内网 / 远程访问家庭电脑的人 Linux / Windows / 开发者 / 运维初学者 🎯 背景与动机：为什么你需要 WireGuard？现代互联网环境下，一旦你的服务器开放端口到公网（SSH、数据库、后台服务），就会：持续被扫描遭遇密码爆破被爬虫探测漏洞面临潜在入侵风险传统解决方案如 OpenVPN 虽然成熟，但复杂、速度慢、配置烦琐。 WireGuard 是为现代安全而生的 VPN：小巧、安全、快，如同“下一代 VPN 协议” 代码量 < 4000 行（OpenVPN 是 40 万+）极易配置延迟低、带宽高适合自建内网、服务器保护、远程办公本文将教你如何用 WireGuard 构建一个完全隐藏在互联网上的私人内网。 🔑 核心概念 WireGuard 是什么？ WireGuard 是一种现代化、极简、安全的 VPN 协议，运行在 Linux 内核中，使用最先进的加密算法（ChaCha20、Curve25519 等）。 ...

让 FastAPI 异步真正‘不卡’：asyncio.create_task + to_thread 并发实践（含 MySQL 写入）

让 FastAPI 异步真正“不卡”：asyncio.create_task + to_thread 并发实践（含 MySQL 写入）副标题 / 摘要把同步重活丢给线程、把可并行的子流程拆出来并发执行，让你的 FastAPI WebSocket/HTTP 服务在高并发文件处理场景下保持流畅与可靠。适合需要在事件循环中混合 CPU 计算与阻塞 I/O 的工程团队。目标读者中级后端工程师、服务端架构师正在用 FastAPI/asyncio 落地异步工作流、混合 I/O/CPU 任务的开发者背景 / 动机常见痛点：在异步服务里不小心执行了同步 CPU/数据库操作，单个请求“卡住”事件循环，导致同一 worker 上的其它请求/WebSocket 心跳/进度推送都被拖慢。 CPU/数据库步骤彼此本无强依赖，却被串行放到一条链上，整体时延被“关键路径”拖长。目标：不改变外部行为的前提下，消除事件循环阻塞。让独立步骤并发执行，缩短关键路径。核心概念线程（Thread）：同一进程内共享内存，切换开销低；CPython 受 GIL 限制，纯 Python CPU 计算难并行，但适合并发等待阻塞 I/O。进程（Process）：独立内存、无 GIL 约束，CPU 计算可多核并行；切换/通信成本更高，参数/结果需可序列化。异步（async/await）：单线程事件循环的协作式调度；只有在 await 时让出控制权，同步阻塞会“卡死”循环。 asyncio.to_thread：把同步函数放到后台线程，释放事件循环；不等于多核加速，但对阻塞 I/O 有实效。 asyncio.create_task：并发启动一个协程，让它和当前协程重叠运行；用于编排并发，而非解除阻塞。实践指南 / 步骤识别阻塞点（示例项目） CPU 构树/展平/序列化：HeaderTree.from_documents、flatten_dfs、FlatHeaderTree.to_dict 同步 MySQL 写入：file_tree_table.upsert_tree 用 to_thread 包裹同步重活（释放事件循环）在 build_file_tree 中，将 CPU/DB 步骤放入 await asyncio.to_thread(...)。并发编排，缩短关键路径在 full_pipeline_async：在 split 后立即 create_task(build_file_tree(...))，并发执行图片/表格处理、重组、存储；返回前再 await 构树结果。可选：事件屏障与互斥如需“保证某步骤不早于构树完成”，用 asyncio.Event。多协程修改共享状态，用 asyncio.Lock 保护原子更新。观测与参数 MySQL 连接池每进程默认较小（示例为 2），必要时调大。 Uvicorn workers 控制进程数，提升隔离与吞吐。可运行示例非阻塞构树与持久化（替换 build_file_tree 内部）： ...

现代加密替代方案：AES‑GCM 与 ChaCha20‑Poly1305 实战指南（附 Python 示例）

现代加密替代方案：AES‑GCM 与 ChaCha20‑Poly1305 实战指南（附 Python 示例）副标题 / 摘要这篇延伸读聚焦现代 AEAD 算法，解释为什么 AES‑GCM 与 ChaCha20‑Poly1305 是 RC4 的安全替代，并提供可运行的 Python 示例、常见陷阱与最佳实践。建议先阅读配套文章《用 Python 还原 RC4 + JWT + 自定义 SSO Token 加解密》，理解遗留方案，再迁移到本篇的现代实践。目标读者后端/安全工程师（中级以上）需要在服务间或 Web 客户端安全传输数据的工程团队计划从自研/过时算法迁移到现代 AEAD 的项目负责人背景 / 动机 RC4 等过时算法存在结构性弱点，且难以正确、安全地使用。现代 AEAD（Authenticated Encryption with Associated Data）算法在保证“机密性”的同时还能“认证完整性”，有效防止篡改与重放，API 更易用，错误空间更小——因此成为主流推荐。核心概念 AEAD：同时提供加密（Confidentiality）与认证（Integrity/Authenticity）的模式。 Nonce/IV（随机数）：每次加密必须唯一（对同一密钥）。常用长度：12 字节。 AAD（Associated Data）：不加密但要认证的额外上下文（例如请求头、资源标识）。 Tag（认证标签）：解密时必须验证；任何修改都会导致校验失败。 Key Derivation（密钥派生）：通过 HKDF/Argon2/Scrypt 将口令或主密钥派生为会话密钥，避免直接使用弱口令。实践指南 / 步骤安装依赖 pip install cryptography 生成或派生密钥服务到服务：使用随机 16/32 字节密钥（AES‑128/256），KMS 管理与轮换。口令到密钥：使用 HKDF（或 Argon2/Scrypt）派生固定长度密钥，避免直接使用口令。选择算法 AES‑GCM：硬件加速广泛（x86 AES‑NI），在服务端通用、高性能。 ChaCha20‑Poly1305：对移动/无 AES 加速的设备更友好，性能稳定。 Nonce 策略每条消息使用唯一 Nonce（12 字节），推荐 os.urandom(12)，将 Nonce 与密文一起存储/传输（前缀写入）。 AAD 的使用将上下文信息（版本、用户ID、消息类型等）作为 AAD 提供，增强完整性绑定。密钥轮换引入 kid（Key ID），支持多活密钥与平滑迁移。可运行示例以下示例仅演示用法。请结合 KMS、密钥轮换、权限隔离与 TLS，构建完整的生产级方案。 ...

用 Python 还原 RC4 + JWT + 自定义 SSO Token 加解密（含可运行示例）

用 Python 还原 RC4 + JWT + 自定义 SSO Token 加解密（含可运行示例）副标题 / 摘要这篇文章带你从 0 拆解 RC4 流加密、Base64/Hex 编码，以及基于 JWT 与自定义 SSO 的鉴权设计，并给出可以复制运行的 Python 示例。示例中的密钥与发行方均为占位值，切勿用于生产。目标读者 Python 后端/测试工程师（中级）对鉴权、令牌与基础加密流程感兴趣的开发者想理解 RC4 工作方式与替代方案的安全入门读者背景 / 动机在实际项目中，我们常需要为 HTTP 或 WebSocket 请求附带令牌进行身份校验。常见做法包括使用 JWT（对称/非对称签名）或自定义的 SSO Token（例如对某段明文进行对称加密后再以 Hex/Base64 编码）。本文整理并复现一种组合方案：RC4+Base64/Hex 与 JWT/SSO 的加解密与校验流程，帮助你在测试或 PoC 中快速上手，同时理解其安全取舍。核心概念 RC4：经典流加密（已不再安全）。通过密钥调度（KSA）与伪随机序列（PRGA）生成密钥流，与明文字节按位异或得到密文。解密过程与加密一致（同一函数）。 Base64 与 Hex：两种将二进制数据编码为可传输文本的方式。Base64 更紧凑；Hex 可读、调试直观。 JWT：JSON Web Token。Header.Payload.Signature。常包含 iss（发行方）、aud（受众/自定义）、iat/exp（签发/过期）。自定义 SSO Token：一种自定义明文格式（示例采用 issuer_expire_ts_userSeqId_userId），经对称加密后再编码为 Hex，便于在 HTTP 头中传输。限制与风险：RC4 已过时且不建议用于生产；如需兼容遗留系统，应仅在测试/过渡场景，且搭配 TLS、短周期、签名与回放防护。实践指南 / 步骤安装依赖 pip install pyjwt 设定占位常量（不要使用真实密钥/发行方） ISSUER = "demo-issuer" SECRET = "demo-secret-change-me" RC4KEY = "demo-rc4-key-change-me" UTE_ISSUER = "ute-demo" 实现 RC4 与常用编码包装 encrypt_string/decrypt_string：RC4 后 Base64 encrypt_hex_string/decrypt_hex_string：RC4 后 Hex 构造与校验 JWT（x-auth-token） aud = [Base64(RC4(user_id)), Base64(RC4(user_seq_id))] iss/iat/exp 等标准字段构造与校验 SSO Token（x-sso-token）明文 UTE_ISSUER_expire_ts_userSeqId_userId → RC4 → Hex 校验发行方与过期时间运行演示，观察生成与校验结果可运行示例（完整代码）仅用于学习与测试，切勿将 RC4 用于生产环境。请优先使用现代 AEAD（AES‑GCM/ChaCha20‑Poly1305）。 ...

一位与两位编码解析的刷题笔记与工程应用全解析（续集，LeetCode 717）

一位与两位编码解析的刷题笔记与工程应用全解析（续集，LeetCode 717）副标题 / 摘要本文解析 LeetCode《1-bit and 2-bit Characters》题目，讲解如何用简单的指针跳跃算法解析二进制编码序列，并展示该算法在通信协议、数据格式解析、事件流处理等工程场景中的真实应用。适合希望将算法题知识迁移到工程系统的开发者。目标读者刷 LeetCode、准备技术面试的开发者对通信协议、序列解析、数据流处理感兴趣的工程师想提升“抽象能力与工程迁移能力”的同学从事监控、序列分析、协议解析等工作的后端开发者背景 / 动机：为什么这题值得写一篇博客？乍一看，这道题好像只是简单判断：一个由 0/1 组成的编码流，最后一个 0 是否单独构成一个 1 位字符？但本质上它对应的是 “变长编码（Variable-Length Coding）解析”，而变长编码在工程中极其常见，比如： UTF-8 字符解析网络包头编码解析字节码指令流解析数据压缩（如 Huffman Coding）通信协议中的 Frame 解析行为序列中用跳表式结构编码的事件因此，这道题不仅是算法题，更是“从左向右解析变长编码的模型题”。理解这题，就是理解大量系统底层的基础。核心概念 1. 变长编码（Variable-Length Encoding）题目中规定了两种编码： 1 位字符：0 2 位字符：10 或 11 这是一种简化的变长编码结构：字符长度取决于首位。工程中常见：系统变长规则 UTF-8 1~4 字节，根据前缀位判断长度 TLV 协议 T + 长度字段决定 Value 长度字节码流 opcode 决定后续参数个数硬件指令集有变长和固定长度两类题目正是这些系统的「极简模型」。 ...

How to Build a Blog System

标题：用 Hugo + GitHub Pages 十分钟上线个人博客（超详细新手指南）副标题 / 摘要本教程带你从零开始，将本地 Hugo 博客部署到 GitHub Pages，全程只需 10 分钟，适合想快速上线技术博客、文档站点的开发者。确保你不仅能跑起来，还能理解背后的工作原理。目标读者 Hugo 初学者想快速上线个人技术博客的开发者想了解 GitHub Pages + GitHub Actions 部署的用户想要零成本托管静态网站的同学背景 / 动机：为什么要用 Hugo + GitHub Pages？许多人写博客时面临这些痛点：发布文章要手动上传，不自动化静态站点生成器很多，但部署步骤零散 GitHub Pages 文档不够清晰，新手容易踩坑主题（如 PaperMod）需要正确处理资源（SCSS）才能编译成功 Hugo + GitHub Pages + GitHub Actions 组合完美解决了这些问题： Hugo 构建速度极快（上千文章依旧瞬间生成） GitHub Pages 完全免费，不需要服务器 GitHub Actions 自动部署，写完文章 push 即上线核心概念（必须理解） 1. Hugo 一个超快的静态博客生成器，通过 Markdown 生成 HTML。 2. GitHub Pages GitHub 提供的免费静态网站托管。 ...