2026年6月24日 12 个节点 #showcase#tech#ai#research

超越 LoRA

一张 LoRA 之后参数高效微调的导图——DoRA、PiSSA、VeRA 等方法如何在同一条帕累托前沿上权衡精度与显存。

完整简报

LoRA 已成为适配大模型的默认选择——便宜、可合并、推理零开销。但「Beyond LoRA」研究表明,各种方法都落在精度与显存的帕累托前沿上:正确的选择取决于任务,而非某个万能最优。

LoRA 基线

在冻结权重上加低秩 A·B

LoRA 冻结基础权重,学习一个低秩更新 B·A。它的弱点是结构性的:A 用噪声初始化而 B 为零、A 与 B 共用一个学习率、更新的几何形态与全量微调相背离。

更好的初始化

从要紧之处开始

不再用随机的 A 和为零的 B,而是从现有权重中信息量最大的方向来初始化适配器——让训练从接近答案处起步,而不是从噪声开始。

PiSSA

用主成分做 SVD 初始化

PiSSA 对原始权重 W 做 SVD,用主奇异向量初始化 A·B,并冻结残差。报告增益:Mistral-7B 在 GSM8K 上 72.86%,而 LoRA 为 67.7%;4-bit 的 QPiSSA 在 LLaMA-3-70B 上胜过 QLoRA(86.05% 对 81.73%)。

权重分解

把幅值与方向分开

把每个权重拆成可学习的「幅值」与「方向」,只适配方向。这让 LoRA 的更新更接近全量微调,而参数成本几乎不变,且仍可合并。

DoRA

只更新方向的低秩方案

DoRA(NVIDIA,ICML 2024 Oral)只对方向分量应用 LoRA,仅额外加一个幅值向量。LLaMA-7B 常识推理:78.4% 对 LoRA 的 74.7%(+3.7),可训练参数仅多约 0.01%,且推理零额外开销。

参数共享

当存储成为瓶颈

若要为大量按用户或按任务的适配器提供服务,真正的约束是检查点大小,而非原始精度——所以要把可训练参数压到尽可能低。

VeRA

共享冻结随机矩阵 + 极小缩放向量

VeRA 在所有层间冻结一对共享的低秩随机矩阵,只训练每层的小缩放向量。随机矩阵可由种子重新生成,因此检查点极小——在性能相当的情况下,可训练参数约为 LoRA 的十分之一。

免费的额外调优

同样算力,榨出更多

有些改进几乎不花成本——它们改的是超参数而非架构,并能叠加到现有方法之上。

LoRA+

给 A 和 B 不同的学习率

为 A 和 B 共用一个学习率,对宽模型并非最优。LoRA+ 按固定比例给 B 更高的学习率:精度提升 1–2%,在同等算力下微调最高快约 2 倍。

显存之墙

用量化把大模型塞进一块 GPU

当瓶颈是显存时,量化要先行。QLoRA 通过 4-bit NF4、双重量化和分页优化器,在单块 48GB GPU 上微调 65B 模型——Guanaco 在 24 GPU 小时后于 Vicuna 上达到 ChatGPT 的 99.3%。

帕累托式抉择

任务、预算、服务形态

精度关键的领域用全量微调;想在 LoRA 的预算下接近全量质量,用 DoRA/PiSSA;要服务大量适配器,用 VeRA;受显存所限,用 QLoRA;LoRA+ 则是近乎免费的加成。Beyond-LoRA 的基准(例如 OFT 在图像任务上以更低显存胜过 LoRA)说明了一点:在前沿上做选择。