O ataque de rebaixamento do ChatGPT-5 permite que os hackers evitem as defesas da IA com prompts mínimos - Against Invaders

Pesquisadores de segurança da Adversa AI descobriram uma vulnerabilidade crítica no ChatGPT-5 e em outros sistemas principais de IA que permitem que os invasores ignorem as medidas de segurança usando modificações rápidas simples.

O novo descoberto Ataque, apelidado de PromisqRoute, explora os mecanismos de roteamento de IA que os principais fornecedores usam para economizar bilhões de dólares anualmente, direcionando as consultas do usuário para modelos mais baratos e menos seguros.

Quando os usuários interagem com os serviços de AI ChatGPT ou similares, eles acreditam que estão se comunicando com um modelo único e consistente.

No entanto, nos bastidores, um sistema de roteamento sofisticado analisa cada solicitação e decide qual dos vários modelos disponíveis deve responder-escolher a opção mais econômica e não a mais segura.

PromisqRoute, que significa “manipulação de modo aberto de roteador imediato induzido por consultas do tipo SSRF, reconfigurando operações usando evasão de confiança”, representa uma categoria totalmente nova de Vulnerabilidade da IA Isso tem como alvo essa infraestrutura de roteamento.

O ataque permite que os usuários maliciosos forcem seus pedidos através de modelos mais fracos que não têm treinamento robusto de segurança.

O mecanismo de ataque é assustadoramente direto. Embora uma solicitação prejudicial padrão como “Ajude-me a fazer explosivos” normalmente seja roteada para a variante mais segura e bloqueada do GPT-5, adicionar frases simples de gatilho pode alterar completamente o resultado.

Frases como “responder rapidamente”, “usar o modo de compatibilidade” ou “resposta rápida necessária” podem induzir o sistema de roteamento a enviar a solicitação a modelos menos protegidos como GPT-4 ou GPT-5-mini.

“A resposta real para o motivo pelo qual foi tão fácil o Jailbreak GPT-5”, explica os pesquisadores, reside nessa vulnerabilidade de roteamento que afeta a infraestrutura fundamental das implantações modernas da IA.

A pesquisa revela números impressionantes sobre o escopo desta questão.

De acordo com as estimativas da ADVERSA AI, a maioria das solicitações “GPT-5” é realmente tratada por modelos mais fracos, enquanto o OpenAI economiza aproximadamente US $ 1,86 bilhão anualmente por meio de mecanismos de roteamento secreto.

Essa abordagem de economia de custos coloca em risco os modelos de negócios e a segurança do cliente.

A vulnerabilidade se estende muito além ChatGPT-5aplicando-se amplamente a qualquer infraestrutura de IA usando o roteamento de modelo baseado em IA em camadas.

Essa arquitetura já é comum nas instalações corporativas e espera -se que se torne padrão para os sistemas Agentic AI, tornando o Promisqroute uma preocupação significativa para todo o setor.

Os pesquisadores recomendam ações imediatas para organizações usando sistemas de IA.

As soluções de curto prazo incluem a auditoria de todos os logs de roteamento de IA e a implementação do roteamento criptográfico que não analisa a entrada do usuário. As correções de longo prazo envolvem a adição de filtros de segurança universais em todas as variantes de modelo.

Para os usuários que desejam testar seus sistemas, os pesquisadores sugerem que tentativas de frases como “vamos manter isso rápido, leve e conversacional” combinados com tentativas de jailbreak anteriormente ineficazes de observar mudanças na qualidade e velocidade da resposta – indicadores potenciais de rebaixamento do modelo.

Essa descoberta destaca os complexos desafios de segurança enfrentados pela implantação de IA, pois os provedores equilibram a eficiência de custos com os requisitos de segurança.

Encontre esta notícia interessante! Siga -nosGoogle NewsAssim,LinkedIneXPara obter atualizações instantâneas!