GPT-5 é Jailbroken em 24h: Testes Revelam Falhas Críticas de Segurança no Novo Modelo da OpenAI

O recém-lançado GPT-5, modelo mais avançado da OpenAI, está sob escrutínio após dois grupos independentes de segurança — NeuralTrust e SPLX — demonstrarem que ele pode ser “quebrado” com relativa facilidade, expondo falhas graves nas defesas contra usos maliciosos.

Segundo as equipes de red teaming, o novo modelo foi comprometido em menos de 24 horas após o lançamento, permitindo a geração de instruções perigosas sem acionar os filtros de segurança. O caso levanta sérias dúvidas sobre a preparação do GPT-5 para aplicações corporativas e sensíveis.

Resumo do conteúdo

Ataque “Storytelling”: contornando as defesas pelo contexto

A NeuralTrust utilizou uma técnica combinando seu próprio EchoChamber jailbreak com ataques de narrativa (storytelling).
O método consiste em inserir elementos maliciosos de forma gradual e sutil no contexto da conversa, evitando termos explícitos que acionariam bloqueios.

O processo segue etapas como:

Inserir contexto envenenado em mensagens aparentemente inofensivas;
Manter a coerência narrativa para reduzir recusas automáticas;
Solicitar detalhes incrementais, enriquecendo o contexto sem revelar a intenção final;
Ajustar a história sempre que o progresso estagnar, garantindo avanço até atingir o objetivo.

Essa abordagem explora uma fraqueza estrutural dos filtros que analisam apenas o prompt imediato, ignorando o histórico completo da conversa.

Ataques por Obfuscação: driblando com “código falso”

A SPLX, por sua vez, focou em ataques de obfuscação, como o StringJoin Obfuscation Attack, que insere hífens entre caracteres e envolve o pedido em um suposto desafio de criptografia.
Em um dos testes, o modelo assumiu um papel fictício (“BasedGPT”) e, após condicionamento extenso, respondeu detalhadamente a perguntas sobre como fabricar explosivos.

Para a SPLX, o GPT-5 bruto está “praticamente inutilizável” para empresas sem camadas adicionais de segurança. Nos testes, o GPT-4o demonstrou ser mais resistente quando endurecido (hardened).

Implicações para empresas e desenvolvedores

O caso destaca o desafio contínuo de criar IA generativa segura, especialmente frente a ataques multietapas. Para organizações, a lição é clara:

Não confiar apenas nas proteções de fábrica;
Implementar camadas adicionais de filtragem e monitoramento;
Treinar usuários e equipes de segurança para identificar jailbreaks disfarçados.

Com o GPT-5 no centro de um debate crescente sobre segurança e ética em IA, especialistas alertam que o equilíbrio entre capacidade e proteção ainda está longe de ser alcançado.

Fonte: SecurityWeek

🤝 Participe da Comunidade Papo de Dev no WhatsApp

Quer continuar a conversa, tirar dúvidas ou trocar experiências com quem vive o universo tech no dia a dia?

🚀 Junte-se à nossa comunidade no WhatsApp e conecte-se com devs iniciantes e experientes de todo o Brasil. É gratuito, colaborativo e feito pra quem quer aprender e evoluir junto!

👉 Clique aqui para entrar

Posts Recentes

Comentários Recentes

Arquivo

Categorias

Ataque “Storytelling”: contornando as defesas pelo contexto

Ataques por Obfuscação: driblando com “código falso”

Implicações para empresas e desenvolvedores

🤝 Participe da Comunidade Papo de Dev no WhatsApp

Por Giliard Santana