Uma cadeia de vulnerabilidades críticas em NVIDIA O Triton Inference Server foi descoberto por pesquisadores, apenas duas semanas após a identificação de uma vulnerabilidade do Container Toolkit.
O Triton Inference Server é uma plataforma de código aberto para executar modelos de IA em escala.
As falhas descobertas pelo Wiz podem permitir que um invasor remoto e não autenticado obtenha controle total do servidor, alcançando Execução remota de código (RCE).
A NVIDIA atribuiu os seguintes identificadores a essa cadeia de vulnerabilidades:CVE-2025-23319,CVE-2025-23320 eCVE-2025-23334.
Os pesquisadores observaram que um ataque bem-sucedido pode levar a:
- Roubo de modelos: roubando modelos de IA proprietários e caros
- Violação de dados: interceptar dados confidenciais processados pelos modelos, como informações do usuário ou dados financeiros
- Manipulação de resposta: manipular a saída do modelo de IA para produzir respostas incorretas, tendenciosas ou maliciosas
- Pivoting: Usar o servidor comprometido como uma cabeça de ponte para atacar outros sistemas dentro da rede da organização
Os pesquisadores da Wiz divulgaram a cadeia de vulnerabilidades para a NVIDIA em 15 de maio, e ela foi reconhecida pela empresa de tecnologia em 16 de maio.
Um patch para as vulnerabilidades foi lançado por meio de um boletim de segurança da NVIDIA em 4 de agosto. Recomenda-se fortemente que os usuários do Triton Inference Server atualizem para a versão mais recente.
Wiz Detalhes Cadeia de Ataque
Em um Postagem no blog de 4 de agosto, a equipe da Wiz Research detalhou a visão geral das vulnerabilidades descobertas.
Embora a arquitetura Triton tenha sido projetada para ser um servidor de inferência universal que pode ser implantado a partir de qualquer estrutura de IA importante (PyTorch, TensorFlow etc.), a pesquisa da Wiz se concentrou no back-end do Python devido ao seu uso generalizado.
Durante a auditoria do Wiz no back-end do Python, uma falha foi identificada em seu mecanismo de tratamento de erros, levando à divulgação do nome exclusivo de sua região de memória compartilhada IPC interna.
A mensagem de erro retornada aparece da seguinte maneira:{“error”:”Falha ao aumentar o tamanho do pool de memória compartilhada para a chave ‘triton_python_backend_shm_region_4f50c226-b3d0-46e8-ac59-d4690b28b859’…”}
A divulgação desse nome é o primeiro passo crítico na cadeia de exploração, pois expõe um componente interno que deve permanecer privado.
Com o nome vazado da memória compartilhada IPC interna do back-end do Python, um invasor pode transformar a API voltada para o público usada no Triton contra si mesmo.
Um invasor pode, portanto, chamar o ponto de extremidade de registro com a chave interna vazada. Depois que o servidor o aceitar, ele poderá criar solicitações de inferência subsequentes que usem essa região para entrada ou saída.
Isso fornece ao invasor primitivas poderosas de leitura e gravação na memória privada do back-end Python, que também contém dados internos e estruturas de controle relacionadas ao seu mecanismo IPC, tudo executado por meio de chamadas de API legítimas padrão.
Como um invasor agora pode alterar a memória compartilhada do back-end do Python, ele pode causar um comportamento inesperado no servidor. Esse recurso pode ser aproveitado para obter controle total do servidor.
Esta é a mais recente de uma série de vulnerabilidades da NVIDIA divulgadas pela Wiz Research, incluindo dois escapes de contêineres:CVE-2025-23266eCVE 2024-0132.
Crédito da imagem: Hepha1st0s / Shutterstock.com