Whisfusion: Parallel ASR Decoding with Masked Diffusion

📰 ArXiv cs.AI

arXiv:2508.07048v2 Announce Type: replace-cross Abstract: Autoregressive (AR) encoder-decoder models dominate high-quality multilingual ASR, but their left-to-right decoders make inference latency scale with transcript length. A natural alternative, CTC-style non-autoregressive (NAR) systems avoid this bottleneck but their conditional independence assumption sacrifices transcript-level generative modeling. Masked diffusion language models (e.g., LLaDA, MDLM) offer a competitive NAR text-generati

Published 10 Jun 2026

Read full paper → ← Back to Reads