Benchmarked Gemma 4 E2B: The 2B model beat every larger sibling on multi-turn (70%)

📰 Reddit r/deeplearning

Tested Gemma 4 E2B across 10 enterprise task suites against Gemma 2 2B, Gemma 3 4B, Gemma 4 E4B, and Gemma 3 12B. Run locally on Apple Silicon. Overall ranking (9 evaluable suites): Gemma 4 E4B — 83.6% Gemma 3 12B — 82.3% Gemma 3 4B — 80.8% Gemma 4 E2B — 80.4% ← new entry Gemma 2 2B — 77.6% Key E2B results: Multi-turn: 70% (highes

Published 13 Apr 2026