N-Day-Bench: ¿pueden los LLMs encontrar vulnerabilidades reales en código real?
📰 Dev.to · Juan Torchia
Aprobé tres PRs con keys hardcodeadas. Los mismos modelos que las escribieron podrían haberlas encontrado. N-Day-Bench mide exactamente ese gap — y los números me incomodan más de lo que esperaba.
DeepCamp AI