Text-Utilization for Encoder-dominated Speech Recognition Models

📰 ArXiv cs.AI

arXiv:2604.26514v1 Announce Type: cross Abstract: This paper investigates efficient methods for utilizing text-only data to improve speech recognition, focusing on encoder-dominated models that facilitate faster recognition. We provide a comprehensive comparison of techniques to integrate text-only data, including modality matching and dynamic downsampling to reach text-level representations within the encoder. Our experiments on the LibriSpeech corpus show that a larger encoder with a smaller d

Published 30 Apr 2026

Read full paper → ← Back to Reads