FORA: Fisher-orthogonal Rank Adaptation Review

안녕하세요, 옵트에이아이 박준영입니다. 오는 7월 미국 샌디에이고에서 열리는 ACL 2026에 참여하게 됐습니다. 많은 관심 부탁드립니다.

아래 내용은 최근 저희 팀이 EMNLP에 제출한 논문의 핵심 아이디어를 바탕으로 구성한 기술 리뷰입니다. LoRA부터 모델 양자화까지 이어지는 파라미터 효율화 연구에서 랭크 붕괴 문제는 실제 모델 최적화 품질을 좌우하는 중요한 과제입니다.

LoRA는 사전 학습된 가중치 W0를 동결하고 저랭크 행렬 ΔW = BA를 학습하여 파라미터 효율성(PEFT)을 극대화합니다. 하지만 최근 연구에 따르면, 학습된 LoRA 어댑터의 효과적 랭크는 명목상의 랭크 r에 크게 미치지 못하는 스펙트럼 붕괴 현상을 겪습니다.

모든 트랜스포머 레이어에 어댑터를 배치하는 대신, FORA는 특정 태스크에 가장 정보량이 많은 상위 K개의 레이어에만 선택적으로 어댑터를 할당합니다.

F_l=\frac{1}{N}\sum_{n=1}^{N}\sum_{\theta\in\theta_l^{base}}\lVert\nabla_{\theta}\mathcal{L}(x_n,y_n)\rVert^2

여기서 θ_l^{base}는 레이어 l의 기저 모델 파라미터이며, N은 미니 배치 수를 의미합니다. 이 대각 흔적은 레이어별 재매개변수화에 불변하는 양의 준정부호 곡률의 근사치로 작용합니다.

< 1%Layer scan

Top-KAdapter layers

FullRank usage

StiefelConstraint

선택된 소수의 레이어에 작업 압력이 집중되므로, 해당 어댑터는 자신의 r 랭크 공간을 온전히 활용해야 합니다. FORA는 다운 프로젝션 행렬 B_l을 열 직교 행렬로 구성된 Stiefel 다양체에 구속시킵니다.

St(d_{out},r)=\{B\in\mathbb{R}^{d_{out}\times r}:B^{\top}B=I_r\}

B가 Stiefel 다양체 위에 있을 때 BA의 특이값은 A의 특이값과 일치합니다. 이는 랭크 손실을 구조적으로 방지한다는 의미입니다.

Q=(I-\frac{\alpha}{2}W)^{-1}(I+\frac{\alpha}{2}W),\quad B^{(t+1)}=QB^{(t)}

FORA는 레이어 선택과 Stiefel 제약이 직교적으로 결합하여 초가산적 시너지를 냅니다. 단순히 파라미터를 줄이는 접근을 넘어, 제한된 파라미터 예산 안에서 어댑터 용량을 더 온전히 활용하는 효율성 프론티어를 제시합니다.

Hu, E. J., et al. (2022). LoRA: Low-rank adaptation of large language models. ICLR.
Park, J. Y., et al. (2025). Riemannian optimization for LoRA on the Stiefel manifold. Findings of EMNLP.
Wen, Z., & Yin, W. (2013). A feasible method for optimization with orthogonality constraints. Mathematical Programming.
Zhang, Q., et al. (2023). AdaLoRA: Adaptive budget allocation for parameter-efficient fine-tuning. ICLR.

관련 글