O recém-lançado GPT-5, modelo mais avançado da OpenAI, está sob escrutínio após dois grupos independentes de segurança — NeuralTrust e SPLX — demonstrarem que ele pode ser “quebrado” com relativa facilidade, expondo falhas graves nas defesas contra usos maliciosos.
Segundo as equipes de red teaming, o novo modelo foi comprometido em menos de 24 horas após o lançamento, permitindo a geração de instruções perigosas sem acionar os filtros de segurança. O caso levanta sérias dúvidas sobre a preparação do GPT-5 para aplicações corporativas e sensíveis.
Ataque “Storytelling”: contornando as defesas pelo contexto
A NeuralTrust utilizou uma técnica combinando seu próprio EchoChamber jailbreak com ataques de narrativa (storytelling).
O método consiste em inserir elementos maliciosos de forma gradual e sutil no contexto da conversa, evitando termos explícitos que acionariam bloqueios.
O processo segue etapas como:
- Inserir contexto envenenado em mensagens aparentemente inofensivas;
- Manter a coerência narrativa para reduzir recusas automáticas;
- Solicitar detalhes incrementais, enriquecendo o contexto sem revelar a intenção final;
- Ajustar a história sempre que o progresso estagnar, garantindo avanço até atingir o objetivo.
Essa abordagem explora uma fraqueza estrutural dos filtros que analisam apenas o prompt imediato, ignorando o histórico completo da conversa.
Leia Também:
250 milhões por um especialista em IA? Bem-vindo à nova era da tecnologia
OpenAI vaza acidentalmente detalhes do GPT-5 no GitHub: o que esperar da nova geração
Google rebate críticas sobre IA na Busca e defende impacto positivo para o tráfego dos sites
ChatGPT Shop: novo recurso de compras pretende rivalizar com o Google Shopping
Ataques por Obfuscação: driblando com “código falso”
A SPLX, por sua vez, focou em ataques de obfuscação, como o StringJoin Obfuscation Attack, que insere hífens entre caracteres e envolve o pedido em um suposto desafio de criptografia.
Em um dos testes, o modelo assumiu um papel fictício (“BasedGPT”) e, após condicionamento extenso, respondeu detalhadamente a perguntas sobre como fabricar explosivos.
Para a SPLX, o GPT-5 bruto está “praticamente inutilizável” para empresas sem camadas adicionais de segurança. Nos testes, o GPT-4o demonstrou ser mais resistente quando endurecido (hardened).
Implicações para empresas e desenvolvedores
O caso destaca o desafio contínuo de criar IA generativa segura, especialmente frente a ataques multietapas. Para organizações, a lição é clara:
- Não confiar apenas nas proteções de fábrica;
- Implementar camadas adicionais de filtragem e monitoramento;
- Treinar usuários e equipes de segurança para identificar jailbreaks disfarçados.
Com o GPT-5 no centro de um debate crescente sobre segurança e ética em IA, especialistas alertam que o equilíbrio entre capacidade e proteção ainda está longe de ser alcançado.
Fonte: SecurityWeek
🤝 Participe da Comunidade Papo de Dev no WhatsApp
Quer continuar a conversa, tirar dúvidas ou trocar experiências com quem vive o universo tech no dia a dia?
🚀 Junte-se à nossa comunidade no WhatsApp e conecte-se com devs iniciantes e experientes de todo o Brasil. É gratuito, colaborativo e feito pra quem quer aprender e evoluir junto!