Categorias
IA Produto

GPT-5 é Jailbroken em 24h: Testes Revelam Falhas Críticas de Segurança no Novo Modelo da OpenAI

O recém-lançado GPT-5, modelo mais avançado da OpenAI, está sob escrutínio após dois grupos independentes de segurança — NeuralTrust e SPLX — demonstrarem que ele pode ser “quebrado” com relativa facilidade, expondo falhas graves nas defesas contra usos maliciosos.

Segundo as equipes de red teaming, o novo modelo foi comprometido em menos de 24 horas após o lançamento, permitindo a geração de instruções perigosas sem acionar os filtros de segurança. O caso levanta sérias dúvidas sobre a preparação do GPT-5 para aplicações corporativas e sensíveis.


Ataque “Storytelling”: contornando as defesas pelo contexto

A NeuralTrust utilizou uma técnica combinando seu próprio EchoChamber jailbreak com ataques de narrativa (storytelling).
O método consiste em inserir elementos maliciosos de forma gradual e sutil no contexto da conversa, evitando termos explícitos que acionariam bloqueios.

O processo segue etapas como:

  • Inserir contexto envenenado em mensagens aparentemente inofensivas;
  • Manter a coerência narrativa para reduzir recusas automáticas;
  • Solicitar detalhes incrementais, enriquecendo o contexto sem revelar a intenção final;
  • Ajustar a história sempre que o progresso estagnar, garantindo avanço até atingir o objetivo.

Essa abordagem explora uma fraqueza estrutural dos filtros que analisam apenas o prompt imediato, ignorando o histórico completo da conversa.

Leia Também:

250 milhões por um especialista em IA? Bem-vindo à nova era da tecnologia

OpenAI vaza acidentalmente detalhes do GPT-5 no GitHub: o que esperar da nova geração

Google rebate críticas sobre IA na Busca e defende impacto positivo para o tráfego dos sites

ChatGPT Shop: novo recurso de compras pretende rivalizar com o Google Shopping


Ataques por Obfuscação: driblando com “código falso”

A SPLX, por sua vez, focou em ataques de obfuscação, como o StringJoin Obfuscation Attack, que insere hífens entre caracteres e envolve o pedido em um suposto desafio de criptografia.
Em um dos testes, o modelo assumiu um papel fictício (“BasedGPT”) e, após condicionamento extenso, respondeu detalhadamente a perguntas sobre como fabricar explosivos.

Para a SPLX, o GPT-5 bruto está “praticamente inutilizável” para empresas sem camadas adicionais de segurança. Nos testes, o GPT-4o demonstrou ser mais resistente quando endurecido (hardened).


Implicações para empresas e desenvolvedores

O caso destaca o desafio contínuo de criar IA generativa segura, especialmente frente a ataques multietapas. Para organizações, a lição é clara:

  • Não confiar apenas nas proteções de fábrica;
  • Implementar camadas adicionais de filtragem e monitoramento;
  • Treinar usuários e equipes de segurança para identificar jailbreaks disfarçados.

Com o GPT-5 no centro de um debate crescente sobre segurança e ética em IA, especialistas alertam que o equilíbrio entre capacidade e proteção ainda está longe de ser alcançado.


Fonte: SecurityWeek

🤝 Participe da Comunidade Papo de Dev no WhatsApp

Quer continuar a conversa, tirar dúvidas ou trocar experiências com quem vive o universo tech no dia a dia?

🚀 Junte-se à nossa comunidade no WhatsApp e conecte-se com devs iniciantes e experientes de todo o Brasil. É gratuito, colaborativo e feito pra quem quer aprender e evoluir junto!

👉 Clique aqui para entrar

Por Giliard Santana

Publicitário aficionado por Inovação e tecnologia. Atuo há cerca de 7 anos com produtos digitais, desenvolvendo soluções criativas, oportunizando a geração de novos negócios.

Também sou facilitador de Design Thinking, aplicando ferramentas e métodos ágeis na gestão de equipes multidisciplinares para a validação de hipóteses e desenvolvimento de novos produtos.

Atualmente atuo como Project Manager, liderando times de Inteligência de Dados e Mídia Programática.

Política de privacidade