Llm | Jeanphilo Blog

LoRA 初始化的常见方法与工程取舍

副标题 / 摘要 LoRA 的初始化方式会直接影响训练稳定性与收敛速度。本文按 ACERS 结构对比标准正态、He、Xavier 与归一化初始化，并提供最小 PyTorch 示例。预计阅读时长：14~18 分钟标签：lora、initialization、finetuning SEO 关键词：LoRA, 初始化, He, Xavier 元描述：对比 LoRA 的常见初始化策略与工程取舍，给出可运行代码。目标读者正在做 LoRA 微调的入门读者需要提升训练稳定性与收敛速度的工程实践者想系统理解初始化策略的开发者背景 / 动机 LoRA 把低秩矩阵插入到线性层中，新增参数很少。但“初始化方式”决定了模型初始扰动幅度，进而影响收敛与稳定性。在实际工程中，初始化常常比优化器参数更敏感。核心概念低秩分解：LoRA 用 W + ΔW 表达更新，其中 ΔW = B A。缩放系数：常用 α / r 控制 LoRA 更新幅度。初始化策略：决定 A 与 B 的初始分布。 A — Algorithm（题目与算法）用通俗语言说明主题内容 LoRA 的核心是“在不改动原权重的情况下，增加一个低秩增量”。初始化方式决定了这个增量是否“从 0 开始”以及“起步有多快”。基础示例（1）若 B 初始化为全 0：模型初始行为与原模型一致，训练更稳定。基础示例（2）若 A 与 B 都较大：初始扰动过强，可能导致 loss 波动。实践指南 / 步骤选择 LoRA rank r 与缩放系数 α。选初始化策略：保守（B=0）或激进（He/Xavier）。小批量跑 100~200 steps 观察 loss 变化。若发散，优先减小初始化尺度或 α。可运行示例（最小 PyTorch LoRA 初始化） import torch import torch.nn as nn torch.manual_seed(42) class LoRALinear(nn.Module): def __init__(self, in_dim, out_dim, r=4, alpha=8, init="normal"): super().__init__() self.weight = nn.Parameter(torch.randn(out_dim, in_dim) * 0.02) self.r = r self.alpha = alpha self.scale = alpha / r self.A = nn.Parameter(torch.zeros(r, in_dim)) self.B = nn.Parameter(torch.zeros(out_dim, r)) self.reset_parameters(init) def reset_parameters(self, init): if init == "normal": nn.init.normal_(self.A, mean=0.0, std=0.02) nn.init.zeros_(self.B) elif init == "he": nn.init.kaiming_normal_(self.A, nonlinearity="linear") nn.init.zeros_(self.B) elif init == "xavier": nn.init.xavier_normal_(self.A) nn.init.zeros_(self.B) elif init == "normalized": nn.init.normal_(self.A, mean=0.0, std=1.0 / (self.r ** 0.5)) nn.init.zeros_(self.B) else: raise ValueError("unknown init") def forward(self, x): delta = (self.B @ self.A) * self.scale w = self.weight + delta return x @ w.t() x = torch.randn(2, 8) layer = LoRALinear(8, 4, r=4, alpha=8, init="xavier") print(layer(x).shape) 解释与原理经典 LoRA 做法是让 B 初始化为 0：初始增量为 0，稳定。 A 的初始化控制低秩子空间的方向分布。 He/Xavier 更适合在“非线性后接层”使用，但 LoRA 通常在 linear 上。 C — Concepts（核心思想）方法类型 LoRA 初始化属于权重初始化范式，核心目标是控制梯度尺度与稳定性。 ...

任务编排为什么要放后端：让流程可控、可变、可回放

任务编排为什么要放后端：让流程可控、可变、可回放副标题 / 摘要在多步骤、可中断、可回放的业务流程中，把“流程顺序与状态机”放在后端，是系统长期可演进的关键。本文从真实工程痛点出发，解释为什么前端不应硬编码流程顺序，并给出一套可落地的后端 Pipeline 编排思路与最小实现。目标读者正在设计多步骤流程 / 向导式产品的后端工程师需要支撑 Web / App / Admin 多端一致流程的技术负责人在 AI / LLM 产品中处理“模型自动 + 人工确认”混合流程的团队背景 / 动机：问题通常是怎么爆出来的？很多系统一开始都很简单：前端：第 1 步 → 第 2 步 → 第 3 步后端：校验 + 存数据但随着业务演进，以下需求几乎一定会出现：步骤变多：从 3 步变成 10+ 步步骤可选：根据条件跳过 / 插入新步骤步骤可中断：需要用户确认、补充信息、人工审核步骤可重试 / 可回放：失败后从中间继续，而不是全部重来步骤多端一致：Web / App / 内部工具共享同一流程如果此时流程顺序仍然写在前端：每次流程变更 = 多端发版出问题时无法准确回答：现在卡在哪一步？想加监控、审计、回放，发现无从下手根因只有一个： ...

算法与业务的关系：把不确定性变成可交付（以 LLM 事实抽取为例）

摘要很多团队做 AI 应用时会陷入一种痛苦：业务逻辑写了一堆，却始终看不到“算法到底抽出了什么”。根因往往不是代码能力，而是把算法阶段的探索，过早塞进业务工程。本文用“投标写作工具里的事实抽取（FactMention）”作为例子，讲清楚算法与业务的边界、如何用 JupyterLab 快速验证、以及何时进入工程化。目标读者正在做 LLM/RAG/信息抽取的工程师（初级到中级）负责 AI 产品落地的技术负责人 / 架构师经常在“写了半天流程，结果不知道抽取效果如何”的同学背景与动机：为什么这个问题重要？在传统系统里，大家习惯把“算法”理解为一个函数或模型文件，把“业务”理解为接口与流程。但在 LLM 时代，这个界限变得更模糊：算法不仅是模型，还包括 prompt、schema、抽取策略、规则归一、置信度与去重策略算法输出往往是不确定、需要人类直觉评估的如果你把这些“不确定”的东西直接嵌进业务链路（router/service/db/cache），你会遇到：调试成本爆炸：只看到最后 response，不知道中间发生了什么逻辑迭代极慢：改一行抽取策略，要跑完整流程团队协作困难：大家在黑箱里争论“到底准不准” 因此，需要一个更清晰的边界：算法负责收敛中间态，业务负责稳定交付。核心概念：算法与业务到底分别是什么？ 1）算法（Algorithm）的工程定义算法负责把“模糊世界”压缩成“可用的结构化中间态”。关键词：不确定性、探索、需要“看结果”、需要收敛。在投标写作场景中，算法阶段的问题长这样： LLM 抽取出来的 payload 字段应该有哪些？ norm_key 怎么设计才代表“同一事实”？同一人多条命中（mentions）要不要合并？ confidence 到底有没有意义？怎么校准？这些问题的共同特点是：你必须看中间结果才能判断对不对。 2）业务（Business）的工程定义业务负责在中间态稳定之后，把事情编排起来：什么时候取什么数据、走哪条链路、如何返回给用户。关键词：确定性、可维护、可测试、可复用。在投标写作场景中，业务阶段的问题长这样： retrive_type = personnel 时走事实检索，否则走原文档检索接口响应结构固定，前端按协议渲染存储从 MemoryTable 换成 DB，不影响上层调用这些问题的共同特点是：输入输出清晰，错误是边界情况，而不是“我也不知道会不会抽出来”。一条“贴墙上”的分界线凡是你还说不清“中间结果长什么样”的阶段 → 用 JupyterLab。凡是你能画出输入/输出 JSON 形态并写出测试用例的阶段 → 进工程。实践指南：什么时候用 JupyterLab，什么时候用工程代码？阶段 1：事实抽取建模期（强制用 JupyterLab）适用信号： ...