Cross-Lingual Jailbreak Detection via Semantic Codebooks

📰 ArXiv cs.AI

Learn to detect cross-lingual jailbreaks in large language models using semantic codebooks, enhancing multilingual security

advanced Published 29 Apr 2026

Action Steps

Build a semantic codebook using a multilingual dataset to capture language-agnostic features
Train a jailbreak detection model using the semantic codebook to identify potential attacks
Evaluate the model's performance on a test set with translated malicious prompts
Fine-tune the model as needed to improve its cross-lingual detection capabilities
Deploy the model in a production environment to enhance the security of LLMs

Who Needs to Know This

NLP engineers and AI security specialists can benefit from this research to improve the security of their multilingual LLMs

Key Insight

💡 Semantic codebooks can help mitigate cross-lingual security gaps in LLMs without requiring retraining

Key Takeaways

Learn to detect cross-lingual jailbreaks in large language models using semantic codebooks, enhancing multilingual security

Full Article

Title: Cross-Lingual Jailbreak Detection via Semantic Codebooks

Abstract:
arXiv:2604.25716v1 Announce Type: cross Abstract: Safety mechanisms for large language models (LLMs) remain predominantly English-centric, creating systematic vulnerabilities in multilingual deployment. Prior work shows that translating malicious prompts into other languages can substantially increase jailbreak success rates, exposing a structural cross-lingual security gap. We investigate whether such attacks can be mitigated through language-agnostic semantic similarity without retraining or l

Read full paper → ← Back to Reads