Salvaguardas GPT-5 contornadas usando jailbreak baseado em narrativa
Foi documentada uma nova técnica que pode contornar os sistemas de segurança do GPT-5, demonstrando que o modelo pode ser levado a saídas prejudiciais sem receber solicitações abertamente maliciosas. O método, testado por pesquisadores de segurança da NeuralTrust, combina o ataque Echo Chamber com direção orientada por narrativa para orientar gradualmente as respostas, evitando a … Ler mais