Os pesquisadores revelaram o OneFlip, um novo ataque de backdoor de tempo de inferência que compromete as redes neurais profundas de precisão completa (DNNs), lançando apenas um pouco nos pesos do modelo, marcando uma escalada significativa na praticidade de ataques baseados em hardware contra Sistemas de IA.
Diferentemente dos métodos tradicionais de backdoor que requerem dados de treinamento de envenenamento ou manipulando o processo de treinamento, o OneFlip opera durante o estágio de inferência, explorando técnicas de injeção de falha de memória, como o Rowhammer, para alterar os pesos do modelo sem a necessidade de acesso às instalações de treinamento.
Essa abordagem aborda as principais limitações de ataques anteriores de bits-flip (BFAs), que geralmente exigem flipping simultâneo de vários bits um feito que é desafiador devido à distribuição esparsa de células DRAM vulneráveis e normalmente confinada a modelos quantizados.
Avanço em ameaças de backdoor de tempo de inferência
Ao direcionar os modelos de precisão completa, que são preferidos para aplicações de alta precisão em ambientes ricos em recursos, o OneFlip demonstra que mesmo um único flip de bit pode incorporar um trojão furtivo, fazendo com que o modelo produza saídas de invasor apenas quando um gatilho específico estiver presente, mantendo o comportamento normal em contribuições limpas.
A ingenuidade do ataque está em seu fluxo de trabalho eficiente, projetado para superar desafios, como o vasto espaço de pesquisa de pesos de precisão total, preservando a precisão benigna e gerando gatilhos eficazes.
Na fase offline, o OneFlip identifica primeiro um peso adequado na camada de classificação especificamente, um peso positivo do ponto flutuante com um padrão de expoente elegível (por exemplo, 01111110), onde deslizando um único neurno não significativo (não-MSB) no expoente aumenta o seu valor além de 1, tornando-o em relação a outros ponderos.
Essa seleção garante um impacto mínimo no desempenho geral do modelo, com a degradação da precisão benigna (ruim) tão baixa quanto 0,005%.
Após a identificação do peso, o ataque otimiza um padrão de gatilho usando a descida de gradiente para amplificar a saída do neurônio da camada de recurso conectado, equilibrando a eficácia do ataque com a furtividade de gatilho por meio de uma função de perda bi-objetiva que incorpora uma restrição de norma L1.
O gatilho é criado para ser imperceptível, garantindo que ele ative o backdoor sem alertar as defesas. Online, um Rowhammer explora o bit alvo e entradas incorporadas ao gatilho e depois classificará incorretamente a classe escolhida pelo atacante.
Resultados da avaliação
Avaliações extensas entre os conjuntos de dados, incluindo CIFAR-10, CIFAR-100, GTSRB e ImageNet, usando arquiteturas como Resnet-18, VGG-16, PréCT-Resnet-18, e Vit-B-16, Methingning Methengen, Methengen, que referem uma taxa de sucesso médio e Methingn, como Metoden, como Methingning, Methingn, Metoden, que requer uma taxa de sucessão de ataque médio (ASR) de 99,6% com médias negativas 0.0 Virar dezenas para milhares de bits.
A eficiência do ataque decorre de seu algoritmo de seleção de peso direto, evitando pesquisas de otimização iterativa usadas em ataques de modelos quantizados, e sua adaptabilidade a vários DNNs ressalta a prevalência de pesos elegíveis nas camadas de classificação.
Oneflip exibe forte resiliência às defesas de backdoor. Evita Métodos de detecção como a limpeza neural, que direciona as injeções de estágio de treinamento, operando em tempo de inferência.
A mitigação via reciclagem é combatida por meio de uma estratégia adaptativa que vira sequencialmente bits adjacentes, mantendo ASR alta (até 99,9%) devido à transferibilidade do gatilho.
As defesas de filtragem de entrada podem lutar contra os gatilhos furtivos de Oneflip, que podem integrar técnicas avançadas de invisibilidade.
Essa vulnerabilidade destaca a necessidade de mitigações aprimoradas de hardware, como códigos de correção de erro de DRAM aprimorados e verificações de integridade do modelo periódico para proteger as implantações de IA de ameaças precisas e baixas.
Os pesquisadores têm lançado Código para replicação, enfatizando a interseção crítica de software de hardware na segurança da DNN.
Encontre esta notícia interessante! Siga -nosGoogle NewsAssim,LinkedIneXPara obter atualizações instantâneas!