2026年6月24日 12 個節點 #showcase#tech#ai#research

超越 LoRA

一張 LoRA 之後參數高效微調的導圖——DoRA、PiSSA、VeRA 等方法如何在同一條帕雷托前沿上權衡精度與顯存。

完整簡報

LoRA 已成為適配大模型的預設選擇——便宜、可合併、推論零開銷。但「Beyond LoRA」研究指出，各種方法都落在精度與顯存的帕雷托前沿上：正確的選擇取決於任務，而非某個萬用最優解。

LoRA 基線

在凍結權重上加低秩 A·B

LoRA 凍結基礎權重，學習一個低秩更新 B·A。它的弱點是結構性的：A 以雜訊初始化而 B 為零、A 與 B 共用一個學習率、更新的幾何形態與全量微調相背離。

更好的初始化

從要緊之處開始

不再用隨機的 A 和為零的 B，而是從現有權重中資訊量最大的方向來初始化適配器——讓訓練從接近答案處起步，而不是從雜訊開始。

PiSSA

用主成分做 SVD 初始化

PiSSA 對原始權重 W 做 SVD，以主奇異向量初始化 A·B，並凍結殘差。報告增益：Mistral-7B 在 GSM8K 上 72.86%，而 LoRA 為 67.7%；4-bit 的 QPiSSA 在 LLaMA-3-70B 上勝過 QLoRA（86.05% 對 81.73%）。

權重分解

把幅值與方向分開

把每個權重拆成可學習的「幅值」與「方向」，只適配方向。這讓 LoRA 的更新更接近全量微調，而參數成本幾乎不變，且仍可合併。

DoRA

只更新方向的低秩方案

DoRA（NVIDIA，ICML 2024 Oral）只對方向分量套用 LoRA，僅額外加一個幅值向量。LLaMA-7B 常識推理：78.4% 對 LoRA 的 74.7%（+3.7），可訓練參數僅多約 0.01%，且推論零額外開銷。

參數共享

當儲存成為瓶頸

若要為大量按使用者或按任務的適配器提供服務，真正的約束是檢查點大小，而非原始精度——所以要把可訓練參數壓到盡可能低。

VeRA

共享凍結隨機矩陣 + 極小縮放向量

VeRA 在所有層間凍結一對共享的低秩隨機矩陣，只訓練每層的小縮放向量。隨機矩陣可由種子重新生成，因此檢查點極小——在效能相當的情況下，可訓練參數約為 LoRA 的十分之一。

免費的額外調校

同樣算力，榨出更多

有些改進幾乎不花成本——它們改的是超參數而非架構，並能疊加到現有方法之上。

LoRA+

給 A 和 B 不同的學習率

為 A 和 B 共用一個學習率，對寬模型並非最優。LoRA+ 按固定比例給 B 更高的學習率：精度提升 1–2%，在同等算力下微調最高快約 2 倍。

顯存之牆

用量化把大模型塞進一張 GPU

當瓶頸是顯存時，量化要先行。QLoRA 透過 4-bit NF4、雙重量化和分頁最佳化器，在單張 48GB GPU 上微調 65B 模型——Guanaco 在 24 GPU 小時後於 Vicuna 上達到 ChatGPT 的 99.3%。

帕雷托式抉擇

任務、預算、服務形態

精度關鍵的領域用全量微調；想在 LoRA 的預算下接近全量品質，用 DoRA/PiSSA；要服務大量適配器，用 VeRA；受顯存所限，用 QLoRA；LoRA+ 則是近乎免費的加成。Beyond-LoRA 的基準（例如 OFT 在影像任務上以更低顯存勝過 LoRA）說明了一點：在前沿上做選擇。

超越 LoRA

完整簡報

📐LoRA 基線

🎯更好的初始化

🧮PiSSA

🧭權重分解

🧩DoRA

🗂️參數共享

🎲VeRA

⚙️免費的額外調校

📈LoRA+

💾顯存之牆

⚖️帕雷托式抉擇