2026年6月24日 12 個節點 #showcase#tech#ai#research
超越 LoRA
一張 LoRA 之後參數高效微調的導圖——DoRA、PiSSA、VeRA 等方法如何在同一條帕雷托前沿上權衡精度與顯存。
完整簡報
LoRA 已成為適配大模型的預設選擇——便宜、可合併、推論零開銷。但「Beyond LoRA」研究指出,各種方法都落在精度與顯存的帕雷托前沿上:正確的選擇取決於任務,而非某個萬用最優解。
LoRA 基線
在凍結權重上加低秩 A·B
LoRA 凍結基礎權重,學習一個低秩更新 B·A。它的弱點是結構性的:A 以雜訊初始化而 B 為零、A 與 B 共用一個學習率、更新的幾何形態與全量微調相背離。
更好的初始化
從要緊之處開始
不再用隨機的 A 和為零的 B,而是從現有權重中資訊量最大的方向來初始化適配器——讓訓練從接近答案處起步,而不是從雜訊開始。
PiSSA
用主成分做 SVD 初始化
PiSSA 對原始權重 W 做 SVD,以主奇異向量初始化 A·B,並凍結殘差。報告增益:Mistral-7B 在 GSM8K 上 72.86%,而 LoRA 為 67.7%;4-bit 的 QPiSSA 在 LLaMA-3-70B 上勝過 QLoRA(86.05% 對 81.73%)。
權重分解
把幅值與方向分開
把每個權重拆成可學習的「幅值」與「方向」,只適配方向。這讓 LoRA 的更新更接近全量微調,而參數成本幾乎不變,且仍可合併。
DoRA
只更新方向的低秩方案
DoRA(NVIDIA,ICML 2024 Oral)只對方向分量套用 LoRA,僅額外加一個幅值向量。LLaMA-7B 常識推理:78.4% 對 LoRA 的 74.7%(+3.7),可訓練參數僅多約 0.01%,且推論零額外開銷。
參數共享
當儲存成為瓶頸
若要為大量按使用者或按任務的適配器提供服務,真正的約束是檢查點大小,而非原始精度——所以要把可訓練參數壓到盡可能低。
VeRA
共享凍結隨機矩陣 + 極小縮放向量
VeRA 在所有層間凍結一對共享的低秩隨機矩陣,只訓練每層的小縮放向量。隨機矩陣可由種子重新生成,因此檢查點極小——在效能相當的情況下,可訓練參數約為 LoRA 的十分之一。
免費的額外調校
同樣算力,榨出更多
有些改進幾乎不花成本——它們改的是超參數而非架構,並能疊加到現有方法之上。
LoRA+
給 A 和 B 不同的學習率
為 A 和 B 共用一個學習率,對寬模型並非最優。LoRA+ 按固定比例給 B 更高的學習率:精度提升 1–2%,在同等算力下微調最高快約 2 倍。
顯存之牆
用量化把大模型塞進一張 GPU
當瓶頸是顯存時,量化要先行。QLoRA 透過 4-bit NF4、雙重量化和分頁最佳化器,在單張 48GB GPU 上微調 65B 模型——Guanaco 在 24 GPU 小時後於 Vicuna 上達到 ChatGPT 的 99.3%。
帕雷托式抉擇
任務、預算、服務形態
精度關鍵的領域用全量微調;想在 LoRA 的預算下接近全量品質,用 DoRA/PiSSA;要服務大量適配器,用 VeRA;受顯存所限,用 QLoRA;LoRA+ 則是近乎免費的加成。Beyond-LoRA 的基準(例如 OFT 在影像任務上以更低顯存勝過 LoRA)說明了一點:在前沿上做選擇。