Jailbreak

Jailbreak em IA é uma técnica de ataque onde o usuário manipula o modelo com prompts cuidadosamente elaborados para burlar as instruções de segurança e fazer o sistema se comportar sem restrições. Exemplos incluem fingir ser outro personagem (persona injection), usar contextos hipotéticos para justificar ações proibidas, ou codificar a saída para evitar detecção. É uma das principais ameaças que guardrails tentam mitigar.