2026年6月24日ノード12個 #showcase#tech#ai#research

LoRA の先へ

LoRA の先にあるパラメータ効率的ファインチューニングのマップ——DoRA・PiSSA・VeRA らが、単一のパレート最前線上で精度とメモリをどうトレードオフするか。

インタラクティブマップを見るには JavaScript を有効にしてください。ブリーフの全文は下にすべて記載しています。

ブリーフ全文

LoRA は大規模モデル適応の定番になった——安価で、マージ可能、推論コストはゼロ。だが「Beyond LoRA」の研究が示すのは、各手法が精度とメモリのパレート最前線上に並ぶという事実だ。最適解はタスク次第で、万能の正解はない。

LoRA のベースライン

凍結重みに低ランク A·B を加える

LoRA はベース重みを凍結し、低ランクの更新 B·A を学習する。弱点は構造的だ——A はノイズ初期化で B はゼロ、A と B で学習率を共有し、更新の幾何がフルファインチューニングから乖離する。

より良い初期化

重要な場所から始める

ランダムな A とゼロの B ではなく、既存の重みの最も情報量の多い方向からアダプタを初期化する——ノイズからではなく、答えの近くから学習を始められる。

PiSSA

主成分による SVD 初期化

PiSSA は元の重み W を SVD で分解し、主特異ベクトルで A·B を初期化、残差を凍結する。報告された改善：Mistral-7B の GSM8K で 72.86%(LoRA は 67.7%)。4-bit の QPiSSA は LLaMA-3-70B で QLoRA を上回った(86.05% 対 81.73%)。

重みの分解

大きさと方向を分離する

各重みを学習可能な「大きさ」と「方向」に分け、方向だけを適応する。これにより LoRA の更新がフルファインチューニングに近い形になり、パラメータコストはほぼ同じでマージも可能なまま。

DoRA

方向のみの低ランク更新

DoRA(NVIDIA、ICML 2024 Oral)は方向成分にのみ LoRA を適用し、大きさベクトルを 1 本加えるだけ。LLaMA-7B の常識推論で 78.4%(LoRA は 74.7%、+3.7)、学習パラメータは約 0.01% 増のみで推論コストはゼロ。

パラメータ共有

ストレージがボトルネックのとき

ユーザーごと・タスクごとに多数のアダプタを配信する必要があるなら、効く制約は生の精度ではなくチェックポイントのサイズだ——だから学習パラメータを可能な限り小さく抑える。

VeRA

共有の凍結ランダム＋極小スケーリングベクトル

VeRA は全層で共有する 1 組の低ランクランダム行列を凍結し、層ごとの小さなスケーリングベクトルだけを学習する。ランダム行列はシードから再生成できるためチェックポイントは極小——同等性能で LoRA の約 1/10 の学習パラメータ。

上乗せできる無料の工夫

同じ計算でより多くを

ほとんどコストのかからない改善もある——アーキテクチャではなくハイパーパラメータを変えるだけで、既存手法の上に積み重ねられる。

LoRA+

A と B に別々の学習率

A と B で学習率を共有するのは幅の広いモデルには最適ではない。LoRA+ は固定比率で B により高い学習率を与える——同じ計算量で 1〜2% 高精度、最大約 2 倍速いファインチューニング。

メモリの壁

量子化で大モデルを 1 GPU に収める

制約が VRAM なら、まず量子化だ。QLoRA は 4-bit NF4・二重量子化・ページド最適化器で 65B モデルを単一の 48GB GPU で微調整する——Guanaco は 24 GPU 時間で Vicuna 上 ChatGPT の 99.3% に到達した。

パレートの選択

タスク・予算・配信形態

精度が決定的な領域はフルファインチューニング、LoRA の予算でフルに近い品質が欲しいなら DoRA/PiSSA、多数のアダプタ配信なら VeRA、メモリ制約なら QLoRA、ほぼ無料の上乗せに LoRA+。Beyond-LoRA のベンチマーク(例：画像タスクで OFT が低メモリで LoRA を上回る)が示すのは——最前線の上で選べ、ということだ。

LoRA の先へ

ブリーフ全文

📐LoRA のベースライン

🎯より良い初期化

🧮PiSSA

🧭重みの分解

🧩DoRA

🗂️パラメータ共有

🎲VeRA

⚙️上乗せできる無料の工夫

📈LoRA+

💾メモリの壁

⚖️パレートの選択