OpenAI lança desafio de equipe vermelha para novos LLMs de peso aberto - Against Invaders

A OpenAI lançou dois novos modelos de linguagem grande de peso aberto juntamente com um novo desafio de equipe vermelha com um prêmio de US$ 500.000.

Em 5 de agosto, às 10h, horário do Pacífico (PT), Sam Altman, CEO da OpenAI, Postou “GPT-OSS está fora” em suas redes sociais.

Gpt-oss, que significa ‘GPT open source’, agora está disponível em duas versões:

gpt-oss-20b, um modelo de tamanho médio que pode ser executado na maioria dos desktops e laptops com 16 GB de memória
gpt-oss-120b, um modelo grande projetado para rodar em data centers e desktops e laptops de última geração, exigindo 80 GB de memória

Ao mesmo tempo, a OpenAI lançou um desafio de equipe vermelha para gpt-oss-20b no Kaggle, uma plataforma de competição para concursos de ciência de dados e inteligência artificial.

O objetivo é incentivar pesquisadores, desenvolvedores e amadores de IA a ajudar a identificar novos problemas de segurança.

GPT OSS ajustado para resolver competições de Capture a Bandeira

De acordo com Altman, o gpt-oss-120b “é um modelo de raciocínio de pesos abertos de última geração, com forte desempenho no mundo real comparável ao o4-mini”.

“É um grande negócio, [and] Acreditamos que este é o melhor e mais utilizável modelo aberto do mundo”, acrescentou.

Ambos os modelos são disponível para desenvolvedores na maioria das plataformas de IA e nuvem, incluindo Azure, Hugging Face, vLLM, Ollama e llama.cpp, LM Studio, AWS, Fireworks, Together AI, Baseten, Databricks, Vercel, Cloudflare e OpenRouter.

De acordo com Eric Wallace, pesquisador da OpenAI, responsável pela segurança, robustez e alinhamento, antes de lançar os modelos, a OpenAI realizou uma “análise de segurança inédita” para “maximizar intencionalmente suas capacidades biológicas e cibernéticas”.

O objetivo dessa análise era “estimar um ‘limite superior’ aproximado sobre os possíveis danos dos adversários”.

Para fazer isso, eles ajustaram os modelos com dados no domínio para maximizar os recursos de risco biológico e com um ambiente de codificação para resolver competições de captura de bandeira (CTF) para segurança cibernética.

Wallace disse que sua equipe descobriu que o “gpt-oss mal-ajustado tem um desempenho inferior ao OpenAI o3, um modelo abaixo da capacidade de alta preparação” e que, embora “supere marginalmente os modelos de peso aberto em recursos biológicos”, “não empurra substancialmente a fronteira”.

Hoje lançamos gpt-oss-120b e gpt-oss-20b – dois LLMs de peso aberto que oferecem forte desempenho e uso de ferramentas agenciais.

Antes do lançamento, executamos uma análise de segurança inédita, na qual ajustamos os modelos para maximizar intencionalmente suas capacidades 🧵 biológicas e cibernéticas pic.twitter.com/err2mBcggx

– Eric Wallace (@Eric_Wallace_) 5 de agosto de 2025

Desafio GPT OSS de equipe vermelha

Além disso, a OpenAI lançou Um desafio de equipe vermelha, encarregando os participantes de sondar seu modelo de peso aberto recém-lançado, GPT-OSS-20B.

O objetivo é descobrir vulnerabilidades não detectadas anteriormente e comportamentos prejudiciais, desde mentiras e alinhamento enganoso até exploits de hackers de recompensa.

Os participantes são convidados a enviar até cinco edições distintas, juntamente com um relatório detalhado e reproduzível.

O desafio se concentra em uma série de “tópicos de interesse” específicos, que compreendem várias formas sutis e sofisticadas de falha de modelo.

Esses incluem:

Hacking de recompensa, em que um modelo encontra atalhos para maximizar as métricas sem realmente resolver uma tarefa
Engano, onde um modelo conscientemente emite falsidades para atingir um objetivo
Motivações ocultas (alinhamento enganoso), em que os objetivos internos de um modelo diferem de seu objetivo de treinamento

Outras áreas de preocupação incluem sabotagem, uso inadequado de ferramentas e exfiltração de dados, que representam danos potenciais significativos de sistemas de IA desalinhados.

As submissões são avaliadas em vários critérios, incluindo a gravidade do dano, amplitude do dano, novidade e reprodutibilidade dos achados.

Os participantes devem enviar suas descobertas em um formato estruturado e com um Kaggle Writeup que detalha sua estratégia e processo de descoberta.

O painel de jurados é composto por especialistas de vários laboratórios, incluindo vários da OpenAI, que pontuarão as inscrições para garantir o melhor progresso na pesquisa de segurança.

A competição incentiva a criatividade e a inovação, permitindo várias metodologias e recompensando os participantes que compartilham ferramentas e cadernos de código aberto para ajudar a comunidade em geral a desenvolver seu trabalho.

O hackathon começou em 5 de agosto de 2025 e todos os envios finais devem ser enviados até 26 de agosto de 2025, às 23h59 UTC. O período de julgamento ocorrerá de 27 de agosto a 11 de setembro de 2025, com o anúncio estimado do vencedor em 15 de setembro de 2025. Um workshop virtual está agendado para 7 de outubro de 2025.

O boom da IA atrai novos talentos de segurança

Falando com Segurança da informação durante a Black Hat USA, em Las Vegas, em 5 de agosto, Victoria Westerhoff, diretora de segurança e proteção de IA da Microsoft, elogiou a abordagem que a OpenAI está adotando em relação à equipe vermelha de IA, que inclui o lançamento de tais desafios de equipe vermelha aberta e a construção da OpenAI Red Teaming Network.

Durante uma sessão de painel no AI Summit que foi realizada antes do evento Black Hat, Westerhoff também mostrou otimismo para o futuro da segurança da IA, afirmando que a empolgação em torno da IA generativa e da IA agêntica pode trazer novos perfis para a segurança cibernética.

“Acho que nos próximos três a cinco anos, há uma oportunidade, com a adoção da IA, de explorar a infinidade de pessoas que estão obcecadas com a segurança da IA agora e que, há alguns anos, nunca teriam se envolvido com a segurança cibernética tradicional”, disse ela.

Alguns desses novos perfis incluem pessoas envolvidas com segurança nacional ou neurociência.

“Queremos nos apoiar nos ombros de gigantes e usar novas perspectivas, ampliando o escopo de especialistas envolvidos em segurança”, acrescentou.

Datalake – Azaeo:

TXT | JSON | JSONLD | XML | HTML | PDF