2026年6月24日 ノード12個 #showcase#tech#ai#research
LoRA の先へ
LoRA の先にあるパラメータ効率的ファインチューニングのマップ——DoRA・PiSSA・VeRA らが、単一のパレート最前線上で精度とメモリをどうトレードオフするか。
ブリーフ全文
LoRA は大規模モデル適応の定番になった——安価で、マージ可能、推論コストはゼロ。だが「Beyond LoRA」の研究が示すのは、各手法が精度とメモリのパレート最前線上に並ぶという事実だ。最適解はタスク次第で、万能の正解はない。
LoRA のベースライン
凍結重みに低ランク A·B を加える
LoRA はベース重みを凍結し、低ランクの更新 B·A を学習する。弱点は構造的だ——A はノイズ初期化で B はゼロ、A と B で学習率を共有し、更新の幾何がフルファインチューニングから乖離する。
より良い初期化
重要な場所から始める
ランダムな A とゼロの B ではなく、既存の重みの最も情報量の多い方向からアダプタを初期化する——ノイズからではなく、答えの近くから学習を始められる。
PiSSA
主成分による SVD 初期化
PiSSA は元の重み W を SVD で分解し、主特異ベクトルで A·B を初期化、残差を凍結する。報告された改善:Mistral-7B の GSM8K で 72.86%(LoRA は 67.7%)。4-bit の QPiSSA は LLaMA-3-70B で QLoRA を上回った(86.05% 対 81.73%)。
重みの分解
大きさと方向を分離する
各重みを学習可能な「大きさ」と「方向」に分け、方向だけを適応する。これにより LoRA の更新がフルファインチューニングに近い形になり、パラメータコストはほぼ同じでマージも可能なまま。
DoRA
方向のみの低ランク更新
DoRA(NVIDIA、ICML 2024 Oral)は方向成分にのみ LoRA を適用し、大きさベクトルを 1 本加えるだけ。LLaMA-7B の常識推論で 78.4%(LoRA は 74.7%、+3.7)、学習パラメータは約 0.01% 増のみで推論コストはゼロ。
パラメータ共有
ストレージがボトルネックのとき
ユーザーごと・タスクごとに多数のアダプタを配信する必要があるなら、効く制約は生の精度ではなくチェックポイントのサイズだ——だから学習パラメータを可能な限り小さく抑える。
VeRA
共有の凍結ランダム+極小スケーリングベクトル
VeRA は全層で共有する 1 組の低ランクランダム行列を凍結し、層ごとの小さなスケーリングベクトルだけを学習する。ランダム行列はシードから再生成できるためチェックポイントは極小——同等性能で LoRA の約 1/10 の学習パラメータ。
上乗せできる無料の工夫
同じ計算でより多くを
ほとんどコストのかからない改善もある——アーキテクチャではなくハイパーパラメータを変えるだけで、既存手法の上に積み重ねられる。
LoRA+
A と B に別々の学習率
A と B で学習率を共有するのは幅の広いモデルには最適ではない。LoRA+ は固定比率で B により高い学習率を与える——同じ計算量で 1〜2% 高精度、最大約 2 倍速いファインチューニング。
メモリの壁
量子化で大モデルを 1 GPU に収める
制約が VRAM なら、まず量子化だ。QLoRA は 4-bit NF4・二重量子化・ページド最適化器で 65B モデルを単一の 48GB GPU で微調整する——Guanaco は 24 GPU 時間で Vicuna 上 ChatGPT の 99.3% に到達した。
パレートの選択
タスク・予算・配信形態
精度が決定的な領域はフルファインチューニング、LoRA の予算でフルに近い品質が欲しいなら DoRA/PiSSA、多数のアダプタ配信なら VeRA、メモリ制約なら QLoRA、ほぼ無料の上乗せに LoRA+。Beyond-LoRA のベンチマーク(例:画像タスクで OFT が低メモリで LoRA を上回る)が示すのは——最前線の上で選べ、ということだ。