FOGO: Forgetting-aware Orthogonalization Optimizer

📰 ArXiv cs.AI

arXiv:2606.10406v1 Announce Type: cross Abstract: We argue that forgetting is not confined to continual learning but is a general optimization phenomenon: during standard training, dominant mini-batch gradients suppress rare but useful update directions, causing short-term forgetting at every step. When such knowledge is never revisited, these losses compound into long-term forgetting-the classical failure mode of continual learning. We introduce FOGO, a scalable optimizer that continuously dete

Published 10 Jun 2026

Read full paper → ← Back to Reads