Guardrails

Guardrails (ou “barreiras de proteção”) são camadas de segurança aplicadas a sistemas de IA para controlar o que o modelo pode receber como entrada e o que pode gerar como saída. Funcionam como filtros que impedem o assistente de compartilhar informações sensíveis, falar de concorrentes, ser manipulado por jailbreaks, ou produzir conteúdo inadequado. Podem ser implementados via validação de prompts, restrição de conhecimento (RAG), detecção de padrões suspeitos, e controle de tópicos.