Locally Coherent Parallel Decoding in Diffusion Language Models

📰 ArXiv cs.AI

arXiv:2603.20216v2 Announce Type: replace-cross Abstract: Diffusion language models (DLMs) have emerged as a promising alternative to autoregressive (AR) models, offering sub-linear generation latency and bidirectional capabilities that are particularly appealing for code generation and editing. Achieving sub-linear latency in discrete DLMs requires predicting multiple tokens in parallel. However, standard DLMs sample tokens independently from conditional marginal distributions, failing to captu

Published 19 May 2026

Read full paper → ← Back to Reads