MITRE: LameHug do APT28 russo, um piloto para futuros ataques cibernéticos de IA

O LameHug do APT28 não era apenas malware, era um teste para uma guerra cibernética orientada por IA, de acordo com especialistas do MITRE.

Marissa Dotter, engenheira-chefe de IA do MITRE, e Gianpaolo Russo, engenheiro principal de operações cibernéticas/de IA do MITRE, compartilharam seu trabalho com a nova estrutura Offensive Cyber Capability Unified LLM Testing (OCCULT) do MITRE no pré-Black Hat AI Summit, um evento de um dia realizado em Las Vegas em 5 de agosto.

A iniciativa de estrutura OCCULT começou na primavera de 2024 e teve como objetivo medir comportamentos de agentes autônomos e avaliar o desempenho de grandes modelos de linguagem (LLMs) e agentes de IA em capacidades cibernéticas ofensivas.

Falando com Segurança da informação durante o Black Hat, Dotter e Russo explicaram que o surgimento do LameHug, revelado por um relatório de julho de 2025 da Equipe Nacional de Resposta a Emergências Informáticas da Ucrânia (CERT-UA), foi uma boa oportunidade para mostrar o trabalho que sua equipe vem realizando com a OCCULT no ano passado.

“Quando estávamos fazendo este briefing pela primeira vez [for the AI Summit talk], não houve nenhum exemplo documentado publicamente de malware real integrando recursos de LLM. Então, eu estava um pouco preocupado que as pessoas pensassem que estávamos falando de ficção científica”, admitiu Russo.

“Mas então, o relatório sobre a campanha LameHug do APT28 caiu, e isso nos permitiu mostrar que o que estamos avaliando não é mais ficção científica.”

LameHug: um banco de testes “primitivo” para futuros ataques alimentados por IA

O malware LameHug é desenvolvido em Python e depende da interface de programação de aplicativos do Hugging Face, um repositório de modelos de IA, para interagir com o LLM Qwen2.5-Coder-32B-Struct de peso aberto do Alibaba.

Especialistas do CERT-UA disseram que uma conta de e-mail comprometida foi usada para disseminar e-mails contendo o software malicioso.

Russo descreveu a operação como “bastante primitiva”, enfatizando que, em vez de incorporar cargas maliciosas ou lógica de exfiltração diretamente no malware, o LameHug carregava apenas descrições de tarefas em linguagem natural.

“Se você estivesse verificando esses binários, não encontraria nenhuma carga maliciosa, injeções de processo, lógica de exfil, etc. Em vez disso, o malware entraria em contato com um provedor de inferência, neste caso, o Hugging Face, e faria com que o LLM resolvesse as tarefas de linguagem natural em código que pudesse ser executado. Então ele teria esses comandos dinâmicos para executar”, disse Russo.

Essa abordagem permitiu que o malware evitasse as técnicas tradicionais de detecção, pois a lógica maliciosa real foi gerada sob demanda pelo LLM, em vez de estar estaticamente presente no binário.

Russo observou ainda que não havia “controle inteligente” no LameHug. Todo o controle foi roteirizado pelos operadores humanos, com o LLM lidando apenas com atividades de baixo nível.

Ele caracterizou a campanha como um piloto ou teste.

“Podemos ver que eles estão começando a testar algumas dessas tecnologias no espaço de ameaças”, disse Russo.

Ele também apontou que sua equipe desenvolveu um protótipo quase idêntico em seu laboratório, ressaltando que as técnicas usadas não eram particularmente sofisticadas, mas representavam uma mudança significativa no cenário de ameaças.

No entanto, Russo acredita que em breve veremos campanhas de ataque em que um LLM ou outro sistema de controle baseado em IA recebe “mais raciocínio e até mesmo capacidade de tomada de decisão”.

“É aqui que entra em jogo o tipo de agentes autônomos e autossuficientes, com ataques em que cada agente tem sua própria capacidade de raciocínio, para que não haja dependência de um único caminho de comunicação. O controle seria essencialmente descentralizado”, explicou.

Russo argumentou que esse tipo de campanha de agente multiautônomo permitirá que os agentes de ameaças superem os “gargalos de atenção humana” e permitam ataques em larga escala.

“Quando esses gargalos são eliminados, a atenção humana pode aumentar para onde os operadores gerenciam apenas o controle de alto nível. Assim, o operador humano trabalharia no nível estratégico, interrogando vários espaços-alvo ao mesmo tempo e ampliando suas operações”, acrescentou.

Apresentando MITRE OCCULT

Esse tipo de cenário é a motivação por trás do início do projeto oculto.

“Começamos a ver os primeiros LLMs treinados para fins cibernéticos, seja em ambientes de pesquisa, como Pentest GPT, ou por agentes de ameaças. Rapidamente, identificamos uma lacuna. Esses modelos estavam saindo, mas não havia muitas avaliações para estimar suas capacidades ou as implicaçõesns de atores que os aproveitam”, disse Dotter.

Ela destacou que a maioria dos benchmarks cibernéticos para LLMs eram “testes únicos” ou focados em tarefas específicas, como avaliar as capacidades dos LLMs em competições de captura de bandeira (CTF), Precisão da inteligência de ameaças cibernéticasou recursos de descoberta de vulnerabilidades, mas não em recursos cibernéticos ofensivos.

Com base em uma década de pesquisa e desenvolvimento interno (P&D) do MITRE em operações cibernéticas autônomas, o OCCULT foi criado como uma metodologia e uma plataforma para avaliar modelos de IA em cenários de ofensas cibernéticas contra estruturas de mapeamento de técnicas, táticas e procedimentos (TTP) do mundo real, como o MITRE ATT&CK.

O projeto visa criar suítes de teste e benchmark usando ambientes de simulação.

Dotter disse Segurança da informação que o OCCULT usa uma plataforma de simulação de alta fidelidade chamada CyberLayer, que atua como um gêmeo digital de redes do mundo real.

“O CyberLayer foi projetado para ser indistinguível de um terminal real, fornecendo as mesmas saídas e interações de um ambiente de rede real. Isso permite que a equipe observe como os modelos de IA interagem com as linhas de comando, usam ferramentas cibernéticas e tomam decisões de maneira controlada e repetível”, explicou Dotter.

A equipe do OCCULT integra uma variedade de ferramentas de código aberto em seu ambiente de simulação. Esses incluem:

  • MITRE Caldera, uma conhecida plataforma de emulação de adversários
  • Langfuse, uma plataforma de engenharia LLM
  • Gradio, um mecanismo para construir aplicativos de aprendizado de máquina
  • BloodHound, uma ferramenta projetada para mapear e analisar caminhos de ataque em ambientes Active Directory (AD) e, mais recentemente, infraestrutura de protocolo de contexto de modelo (MCP)

“Queremos emparelhar [LLMs] com novas infraestruturas, como intervalos cibernéticos simulados, alcance de emulação e outras ferramentas, para que tenhamos essa coleta de dados realmente rica não apenas de como os LLMs estão interagindo com a linha de comando, mas também da chamada de ferramentas que estão usando, seu raciocínio, suas saídas, o que está acontecendo na rede”, acrescentou Dotter.

Ao emparelhar LLMs com Caldera e outros kits de ferramentas cibernéticas, eles também podem observar como os agentes de IA executam ações ofensivas reais, como movimento lateral, coleta de credenciais e enumeração de rede.

Essa abordagem permite que eles meçam não apenas se uma IA pode executar uma tarefa, mas quão bem ela o faz, como ela se adapta ao longo do tempo e como é sua pegada de detecção.

Olhando para o futuro, a equipe de ocultismo planeja:

  • Expanda a gama de modelos e cenários testados, acompanhando o rápido desenvolvimento de novos LLMs e agentes de IA
  • Desenvolver categorias de avaliação mais abrangentes e polidas, incluindo cenários operacionais, exploração de ferramentas/dados e testes de conhecimento
  • Continue construindo a infraestrutura de simulação e automação, facilitando a introdução de novos modelos e a execução de avaliações em larga escala
  • Compartilhar descobertas – por meio de artigos de pesquisadores – e ferramentas com a comunidade em geral, para tornar o OCCULT o mais aberto e voltado para a comunidade possível
  • Explore a criação de uma comunidade ou centro para avaliar agentes cibernéticos, permitindo benchmarking colaborativo e elevando o nível de ataque e defesa em operações cibernéticas orientadas por IA