Enhancing Text-to-Image Diffusion Transformer via Split-Text Conditioning

📰 ArXiv cs.AI

arXiv:2505.19261v2 Announce Type: replace-cross Abstract: Current text-to-image diffusion generation typically employs complete-text conditioning. Due to the intricate syntax, diffusion transformers (DiTs) inherently suffer from a comprehension defect of complete-text captions. One-fly complete-text input either overlooks critical semantic details or causes semantic confusion by simultaneously modeling diverse semantic primitive types. To mitigate this defect of DiTs, we propose a novel split-te

Published 15 Apr 2026

Read full paper → ← Back to Reads