2026年6月24日 12 个节点 #showcase#tech#ai#research

超越 LoRA

一张 LoRA 之后参数高效微调的导图——DoRA、PiSSA、VeRA 等方法如何在同一条帕累托前沿上权衡精度与显存。

完整简报

LoRA 已成为适配大模型的默认选择——便宜、可合并、推理零开销。但「Beyond LoRA」研究表明，各种方法都落在精度与显存的帕累托前沿上：正确的选择取决于任务，而非某个万能最优。

LoRA 基线

在冻结权重上加低秩 A·B

LoRA 冻结基础权重，学习一个低秩更新 B·A。它的弱点是结构性的：A 用噪声初始化而 B 为零、A 与 B 共用一个学习率、更新的几何形态与全量微调相背离。

更好的初始化

从要紧之处开始

不再用随机的 A 和为零的 B，而是从现有权重中信息量最大的方向来初始化适配器——让训练从接近答案处起步，而不是从噪声开始。

PiSSA

用主成分做 SVD 初始化

PiSSA 对原始权重 W 做 SVD，用主奇异向量初始化 A·B，并冻结残差。报告增益：Mistral-7B 在 GSM8K 上 72.86%，而 LoRA 为 67.7%；4-bit 的 QPiSSA 在 LLaMA-3-70B 上胜过 QLoRA（86.05% 对 81.73%）。

权重分解

把幅值与方向分开

把每个权重拆成可学习的「幅值」与「方向」，只适配方向。这让 LoRA 的更新更接近全量微调，而参数成本几乎不变，且仍可合并。

DoRA

只更新方向的低秩方案

DoRA（NVIDIA，ICML 2024 Oral）只对方向分量应用 LoRA，仅额外加一个幅值向量。LLaMA-7B 常识推理：78.4% 对 LoRA 的 74.7%（+3.7），可训练参数仅多约 0.01%，且推理零额外开销。

参数共享

当存储成为瓶颈

若要为大量按用户或按任务的适配器提供服务，真正的约束是检查点大小，而非原始精度——所以要把可训练参数压到尽可能低。

VeRA

共享冻结随机矩阵 + 极小缩放向量

VeRA 在所有层间冻结一对共享的低秩随机矩阵，只训练每层的小缩放向量。随机矩阵可由种子重新生成，因此检查点极小——在性能相当的情况下，可训练参数约为 LoRA 的十分之一。

免费的额外调优

同样算力，榨出更多

有些改进几乎不花成本——它们改的是超参数而非架构，并能叠加到现有方法之上。

LoRA+

给 A 和 B 不同的学习率

为 A 和 B 共用一个学习率，对宽模型并非最优。LoRA+ 按固定比例给 B 更高的学习率：精度提升 1–2%，在同等算力下微调最高快约 2 倍。

显存之墙

用量化把大模型塞进一块 GPU

当瓶颈是显存时，量化要先行。QLoRA 通过 4-bit NF4、双重量化和分页优化器，在单块 48GB GPU 上微调 65B 模型——Guanaco 在 24 GPU 小时后于 Vicuna 上达到 ChatGPT 的 99.3%。

帕累托式抉择

任务、预算、服务形态

精度关键的领域用全量微调；想在 LoRA 的预算下接近全量质量，用 DoRA/PiSSA；要服务大量适配器，用 VeRA；受显存所限，用 QLoRA；LoRA+ 则是近乎免费的加成。Beyond-LoRA 的基准（例如 OFT 在图像任务上以更低显存胜过 LoRA）说明了一点：在前沿上做选择。

超越 LoRA

完整简报

📐LoRA 基线

🎯更好的初始化

🧮PiSSA

🧭权重分解

🧩DoRA

🗂️参数共享

🎲VeRA

⚙️免费的额外调优

📈LoRA+

💾显存之墙

⚖️帕累托式抉择