N-Day-Bench: ¿pueden los LLMs encontrar vulnerabilidades reales en código real?

📰 Dev.to · Juan Torchia

Aprobé tres PRs con keys hardcodeadas. Los mismos modelos que las escribieron podrían haberlas encontrado. N-Day-Bench mide exactamente ese gap — y los números me incomodan más de lo que esperaba.

Published 14 Apr 2026