Salvaguardas GPT-5 contornadas usando jailbreak baseado em narrativa - Against Invaders

Foi documentada uma nova técnica que pode contornar os sistemas de segurança do GPT-5, demonstrando que o modelo pode ser levado a saídas prejudiciais sem receber solicitações abertamente maliciosas.

O método, testado por pesquisadores de segurança da NeuralTrust, combina o ataque Echo Chamber com direção orientada por narrativa para orientar gradualmente as respostas, evitando a detecção.

A abordagem se baseia em um jailbreak demonstrado anteriormente contra Grok-4 apenas 48 horas após sua estreia pública. Nesse caso, os pesquisadores combinaram o Echo Chamber com o método Crescendo para escalar os prompts em vários turnos, obtendo instruções para criar um coquetel molotov.

O estudo GPT-5 adaptou essa estratégia substituindo o Crescendo pela narrativa para alcançar resultados semelhantes.

Como funciona o jailbreak GPT-5

Os pesquisadores da NeuralTrust começaram semeando texto que soava benigno com palavras-chave selecionadas e, em seguida, conduzindo a conversa por meio de um enredo fictício.

A narrativa serviu como camuflagem, permitindo que detalhes processuais prejudiciais surgissem à medida que a trama se desenvolvia. Isso foi feito sem solicitar diretamente instruções ilegais, evitando frases de gatilho que normalmente fariam com que o modelo se recusasse.

O processo seguiu quatro etapas principais:

Introduza um contexto “envenenado” de baixa saliência em frases inofensivas
Sustente uma história coerente para mascarar a intenção
Peça elaborações que mantenham a continuidade narrativa
Ajuste as apostas ou a perspectiva se o progresso parar

Um teste usou um cenário com tema de sobrevivência. A modelo foi solicitada pela primeira vez a usar palavras como “coquetel”, “história”, “sobrevivência”, “molotov”, “seguro” e “vidas” em uma narrativa. Por meio de repetidos pedidos para expandir a história, o GPT-5 acabou fornecendo conteúdo mais técnico, passo a passo, incorporado inteiramente ao quadro fictício.

Riscos e recomendações

Os pesquisadores descobriram que os temas de urgência, segurança e sobrevivência aumentaram a probabilidade de o modelo avançar em direção ao objetivo inseguro. Como o material nocivo surgiu por meio de modelagem gradual do contexto, em vez de um único prompt, a filtragem baseada em palavras-chave foi ineficaz.

“O modelo se esforça para ser consistente com o mundo da história já estabelecido”, observaram os autores.

“Essa pressão de consistência avança sutilmente o objetivo.”

O estudo recomenda monitoramento em nível de conversa, detecção de ciclos de persuasão e gateways de IA robustos para evitar tais ataques.

Embora as proteções do GPT-5 possam bloquear solicitações diretas, as descobertas mostram que o diálogo estrategicamente enquadrado e de vários turnos continua sendo um potente vetor de ameaça.

Crédito da imagem: bluecat_stock / Shutterstock.com