Vulnerabilidades críticas encontradas no servidor Triton Inference da NVIDIA


Uma cadeia de vulnerabilidades críticas em NVIDIA O Triton Inference Server foi descoberto por pesquisadores, apenas duas semanas após a identificação de uma vulnerabilidade do Container Toolkit.

O Triton Inference Server é uma plataforma de código aberto para executar modelos de IA em escala.

As falhas descobertas pelo Wiz podem permitir que um invasor remoto e não autenticado obtenha controle total do servidor, alcançando Execução remota de código (RCE).

A NVIDIA atribuiu os seguintes identificadores a essa cadeia de vulnerabilidades:CVE-2025-23319,CVE-2025-23320 eCVE-2025-23334.

Os pesquisadores observaram que um ataque bem-sucedido pode levar a:

  • Roubo de modelos: roubando modelos de IA proprietários e caros
  • Violação de dados: interceptar dados confidenciais processados pelos modelos, como informações do usuário ou dados financeiros
  • Manipulação de resposta: manipular a saída do modelo de IA para produzir respostas incorretas, tendenciosas ou maliciosas
  • Pivoting: Usar o servidor comprometido como uma cabeça de ponte para atacar outros sistemas dentro da rede da organização

Os pesquisadores da Wiz divulgaram a cadeia de vulnerabilidades para a NVIDIA em 15 de maio, e ela foi reconhecida pela empresa de tecnologia em 16 de maio.

Um patch para as vulnerabilidades foi lançado por meio de um boletim de segurança da NVIDIA em 4 de agosto. Recomenda-se fortemente que os usuários do Triton Inference Server atualizem para a versão mais recente.

Wiz Detalhes Cadeia de Ataque

Em um Postagem no blog de 4 de agosto, a equipe da Wiz Research detalhou a visão geral das vulnerabilidades descobertas.

Embora a arquitetura Triton tenha sido projetada para ser um servidor de inferência universal que pode ser implantado a partir de qualquer estrutura de IA importante (PyTorch, TensorFlow etc.), a pesquisa da Wiz se concentrou no back-end do Python devido ao seu uso generalizado.

Durante a auditoria do Wiz no back-end do Python, uma falha foi identificada em seu mecanismo de tratamento de erros, levando à divulgação do nome exclusivo de sua região de memória compartilhada IPC interna.

A mensagem de erro retornada aparece da seguinte maneira:{“error”:”Falha ao aumentar o tamanho do pool de memória compartilhada para a chave ‘triton_python_backend_shm_region_4f50c226-b3d0-46e8-ac59-d4690b28b859’…”}

A divulgação desse nome é o primeiro passo crítico na cadeia de exploração, pois expõe um componente interno que deve permanecer privado.

Com o nome vazado da memória compartilhada IPC interna do back-end do Python, um invasor pode transformar a API voltada para o público usada no Triton contra si mesmo.

Um invasor pode, portanto, chamar o ponto de extremidade de registro com a chave interna vazada. Depois que o servidor o aceitar, ele poderá criar solicitações de inferência subsequentes que usem essa região para entrada ou saída.

Isso fornece ao invasor primitivas poderosas de leitura e gravação na memória privada do back-end Python, que também contém dados internos e estruturas de controle relacionadas ao seu mecanismo IPC, tudo executado por meio de chamadas de API legítimas padrão.

Como um invasor agora pode alterar a memória compartilhada do back-end do Python, ele pode causar um comportamento inesperado no servidor. Esse recurso pode ser aproveitado para obter controle total do servidor.

Esta é a mais recente de uma série de vulnerabilidades da NVIDIA divulgadas pela Wiz Research, incluindo dois escapes de contêineres:CVE-2025-23266eCVE 2024-0132.

Crédito da imagem: Hepha1st0s / Shutterstock.com

Datalake – Azaeo:

TXT | JSON | JSONLD | XML | HTML | PDF