Protegendo modelos treinados no aprendizado federado que preserva a privacidade

Esta postagem faz parte de uma série sobre aprendizagem federada que preserva a privacidade. A série é uma colaboração entre o NIST e a Unidade de Adoção de Tecnologia Responsável (RTA) do governo do Reino Unido, anteriormente conhecida como Centro de Ética e Inovação de Dados. Saiba mais e leia todos os posts publicados até o momento emEspaço de colaboração de engenharia de privacidade do NIST ouBlog da RTA.

Os dois últimos posts de nossa série abordaram técnicas para privacidade de entrada no aprendizado federado que preserva a privacidade no contexto de horizontalmente e verticalmente dados particionados. Para construir um sistema de aprendizado federado completo que preserve a privacidade, essas técnicas devem ser combinadas com uma abordagem para privacidade de saída,que limitam o quanto pode ser aprendido sobre os indivíduos nos dados de treinamento após o modelo ter sido treinado.

Conforme descrito na segunda parte do nosso post sobre Ataques de privacidade no aprendizado federado, os modelos treinados podem vazar informações significativas sobre seus dados de treinamento, incluindo imagens inteiras e trechos de texto.

Treinamento com Privacidade Diferencial

A forma mais forte conhecida de privacidade de saída é a privacidade diferencial. A privacidade diferencial é uma estrutura formal de privacidade que pode ser aplicada em muitos contextos; ver Série de blogs do NIST sobre este tópico para mais detalhese, especialmente, o Postagem em aprendizado de máquina diferencialmente privado.

Técnicas para aprendizado de máquina diferencialmente privado adicionam ruído aleatório ao modelo durante o treinamento para se defender contra ataques de privacidade. O ruído aleatório impede que o modelo memorize detalhes dos dados de treinamento, garantindo que os dados de treinamento não possam ser extraídos posteriormente do modelo. Por exemplo Carlini et al. mostraram que dados confidenciais de treinamento, como números de previdência social, podem ser extraídos de modelos de linguagem treinados e que o treinamento com privacidade diferencial impediu com sucesso esse ataque.

Privacidade diferencial para aprendizado federado que preserva a privacidade

No treinamento centralizado, em que os dados de treinamento são coletados em um servidor central, o servidor pode realizar o treinamento e adicionar ruído para privacidade diferencial de uma só vez. No aprendizado federado que preserva a privacidade, pode ser mais difícil determinar quem deve adicionar o ruído e como deve adicioná-lo.

FedAvg com privacidade diferencial, para aprendizado federado que preserva a privacidade em dados particionados horizontalmente. As modificações na abordagem FedAvg são destacadas em vermelho. Essas modificações adicionam ruído aleatório a cada atualização, de modo que as amostras de ruído agregadas sejam suficientes para garantir a privacidade diferencial para o modelo global treinado.

Crédito:

NIST

Para aprendizado federado que preserva a privacidade em dados particionados horizontalmente, Kairouz et al. apresentar uma variante da abordagem FedAvg descrito em nosso quarto post. Nessa abordagem, visualizada, cada participante realiza um treinamento local e, em seguida, adiciona uma pequena quantidade de ruído aleatório à atualização do modelo antes de agregá-lo às atualizações de outros participantes. Se cada participante adicionar corretamente ruído à sua atualização, o novo modelo agregado conterá ruído suficiente para garantir a privacidade diferencial. Essa técnica fornece privacidade de saída, mesmo no caso de um agregador mal-intencionado. A equipe da Scarlet Pets usou uma variante dessa abordagem em sua solução vencedora para o Desafios do Prêmio PETs Reino Unido-EUA.

No caso de dados particionados verticalmente, garantir a privacidade diferencial pode ser complicado. O ruído necessário para a privacidade diferencial não pode ser adicionado antes do alinhamento da entidade, pois isso impedirá que os atributos de dados correspondam corretamente. Em vez disso, o ruído deve ser adicionado após o alinhamento da entidade, seja por um participante confiável ou por meio de técnicas como criptografia homomórfica ou computação multipartidária.

Treinamento de modelos diferencialmente privados altamente precisos

O ruído aleatório necessário para a privacidade diferencial pode afetar a precisão do modelo. Mais ruído geralmente leva a uma melhor privacidade, mas pior precisão. Essa troca entre precisão e privacidade é freqüentemente chamada de troca de privacidade-utilidade.

Para alguns tipos de modelos de aprendizado de máquina, incluindo modelos de regressão linear, modelos de regressão logística e árvores de decisão, essa compensação é fácil de navegar – a abordagem descrita anteriormente geralmente funciona para treinar modelos altamente precisos com privacidade diferencial. Em os Desafios do Prêmio PETs Reino Unido-EUA, as equipes PPMLHuskies e Scarlet Pets usaram técnicas semelhantes para treinar modelos altamente precisos com privacidade diferencial.

Para redes neurais e aprendizado profundo, o tamanho do modelo em si torna o treinamento com privacidade diferencial mais difícil – modelos maiores exigem mais ruído para obter privacidade, o que pode reduzir significativamente a precisão. Embora esses tipos de modelos não fizessem parte dos Desafios do Prêmio PETs do Reino Unido e dos EUA, eles são cada vez mais importantes em todas as aplicações de IA generativa, incluindo grandes modelos de linguagem.

Resultados recentes mostraram que os modelos pré-treinadoem dados disponíveis publicamente (sem privacidade diferencial) e, em seguida, Ajustadocom privacidade diferencial pode alcançar uma precisão muito maior do que os modelos treinados apenas com privacidade diferencial. Por exemplo Li et al. mostram que os modelos de linguagem pré-treinados podem ser ajustados com privacidade diferencial e alcançar quase a mesma precisão que os modelos treinados sem privacidade diferencial. Esses resultados sugerem que, para domínios em que os dados disponíveis publicamente podem ser usados para pré-treinamento, incluindo modelos de reconhecimento de linguagem e imagem, o aprendizado federado que preserva a privacidade e alcança privacidade e utilidade é viável.

Essa abordagem não oferece nenhuma proteção de privacidade para os dados públicos usados durante o pré-treinamento, por isso é importante garantir que o uso desses dados respeite os direitos relevantes de privacidade e propriedade intelectual (as considerações legais e éticas em torno disso estão fora do escopo desta série de blogs).

A seguir

Em nossa próxima postagem, discutiremos os desafios de implementação ao implantar o aprendizado federado que preserva a privacidade no mundo real.

Datalake – Azaeo:

TXT | JSON | JSONLD | XML | HTML | PDF