Neste post, conversamos com Dr. Xiaowei Huang e Dr. Yi Dong (Universidade de Liverpool), Dr. Mat Weldon (Unidos Kingdom (Reino Unido) Escritório de Estatísticas Nacionais (ONS)), e Dr. Michael Fenton (Trūata) que foram vencedores no Reino Unido-EUA Tecnologias de Aprimoramento da Privacidade (PETs) Desafios de prêmios. Discutimos os desafios de implementação do aprendizado federado que preserva a privacidade (PPFL) – especificamente, as áreas de modelagem de ameaças e implantações no mundo real.
Modelagem de ameaças
Na pesquisa sobre aprendizagem federada com preservação da privacidade (PPFL), as proteções de um sistema PPFL são geralmente codificadas em um Modelo de ameaçaIsso define contra quais tipos de invasores o sistema pode se defender. Alguns sistemas assumem que os invasores espionarão a operação do sistema, mas não serão capazes de afetar sua operação (um chamado honesto, mas curioso invasor), enquanto outros assumem que os invasores podem modificar ou interromper a operação do sistema (um ativo ou totalmente malicioso atacante). Atacantes mais fracos geralmente são mais fáceis de se defender do que os mais fortes.
Infelizmente, continua sendo um desafio determinar se um modelo de ameaça é realista. No mundo real, os invasores serão honestos, mas curiosos, ou totalmente maliciosos? Ou em algum lugar no meio? Muitas vezes é muito difícil dizer com confiança – e fazer a escolha errada pode resultar na implantação de um sistema que não é suficientemente bem defendido. Além disso, pode ser difícil até mesmo comparar diferentes modelos de ameaças para determinar sua força relativa.
Autores: Que suposições os projetistas de sistemas fazem sobre os recursos dos invasores ao projetar um modelo de ameaça?
Dr. Xiaowei Huang e Dr. Yi Dong, Universidade de Liverpool:Dependendo das suposições, diferentes modelos de ameaça permitem que o invasor tenha diferentes recursos. Por exemplo, um invasor pode espionar as comunicações entre os agentes e usar as observações para descobrir os segredos (por exemplo, reconstruir o modelo global). Outro invasor pode adulterar os rótulos de um conjunto de dados local para induzir previsões errôneas. Um agente local também pode ser um invasor, no sentido de que pode injetar backdoors no modelo global ou roubar o modelo global sem contribuição. Um invasor do agente central pode manipular a atualização do modelo para impedir que o modelo global converja.
Autores: Quais são os desafios na definição e comparação de modelos de ameaças para o aprendizado federado que preserva a privacidade?
Dr. Xiaowei Huang e Dr. Yi Dong, Universidade de Liverpool:Mesmo para um ataque bem discutido, como um ataque de envenenamento, devido à sua natureza distribuída e restrições de privacidade, pode haver diferentes modelos de ameaça (por exemplo, invasores barulhentos, observacionais ou bizantinos).
Para permitir um estudo rigoroso, um modelo de ameaça precisa ser bem articulado. No entanto, ainda falta um modelo formal que possa descrever diferentes suposições. Este estado da arte tornou difícil a comparação entre métodos (seja de aprendizagem ou defesa).
A lacuna teoria-realidade
A pesquisa sobre o aprendizado federado que preserva a privacidade geralmente faz suposições simplificadoras que não são razoáveis em implantações do mundo real. Essas lacunas entre teoria e prática continuam sendo uma barreira para o desenvolvimento de sistemas PPFL implantáveis, e a maioria dos sistemas existentes preencheu essas lacunas com soluções personalizadas. Além de limitar o potencial de adoção de sistemas PPFL em uma escala mais ampla, essa abordagem também significa que é difícil garantir que os sistemas PPFL implantados sejam confiáveis e livres de bugs. Esse desafio é agravado pela necessidade de integração de sistemas PPFL do mundo real com a infraestrutura de dados existente, um requisito que também pode levar a importantes problemas de segurança e privacidade. Vários participantes dos Desafios do Prêmio PETs Reino Unido-EUA destacaram questões relacionadas a isso.
Autores: Quais são as principais lacunas que ainda existem entre a teoria e a prática da aprendizagem federada que preserva a privacidade?
Dr. Xiaowei Huang e Dr. Yi Dong, Universidade de Liverpool:O aprendizado federado (FL) atual ou PPFL se concentra no desenvolvimento algorítmico, abstraindo algumas configurações do mundo real nas quais o algoritmo FL ou PPFL será executado. Por exemplo, pode não considerar os casos em que alguns ou todos os agentes locais não têm poderes computacionais ou memória suficientes para conduzir treinamento e inferência em larga escala, e pode não considerar o ambiente aberto em que há bisbilhoteiros ou invasor para comprometer as propriedades de segurança ou privacidade dos algoritmos.
Dr. Mat Weldon, Escritório de Estatísticas Nacionais do Reino Unido (ONS), Campus de Ciência de Dados:O problema com as soluções de aprendizado federadas atuais, altamente personalizadas, é que há muitas partes móveis, e cada parte móvel precisa ser testada de forma independente para cada nova solução. É mais fácil projetar uma nova arquitetura de aprendizado federada do que fazer uma equipe vermelha.
A disciplina está atualmente em um estado muito fluido – cada nova solução é personalizada e adaptada a um problema de engenharia específico. Isso dificulta a obtenção de economias de escala. Prevejo que, nos próximos anos, veremos surgir protocolos que cristalizam padrões comuns, da mesma forma que os protocolos criptográficos surgiram e cristalizaram o comércio na web.
Dr. Michael Fenton, Trūata:Na maioria das soluções que observamos, falhas pequenas, mas críticas, no design geral do sistema podem levar a violações de privacidade. Essas falhas geralmente surgem porque os designers de soluções geralmente procuram adaptar soluções ou sistemas legados existentes para adicionar elementos de preservação da privacidade como uma medida de economia de tempo e custos. O resultado líquido é que o sistema geral se torna mal otimizado para proteção de privacidade, pois, em muitos casos, uma solução ideal pode exigir que você comece do zero, o que pode ser proibitivamente caro do ponto de vista do desenvolvimento.Privacidade por design significa construir proteções de privacidade em um sistema no papel e na prática (ou seja, projetar um sistema para preservar a privacidade desde o início e testar todo o sistema para garantir que essas proteções de privacidade tenham o efeito desejado).
Enfrentando o desafio
Os desafios descritos neste post estão associados ao estágio inicial de desenvolvimento dos sistemas PPFL – uma situação que muitos que trabalham nessa área esperam que melhore com o tempo.
À medida que as organizações começam a criar e implantar sistemas PPFL, estamos aprendendo mais sobre os processos de modelagem de ameaças. Por exemplo, é importante articular cuidadosamente os riscos de segurança e privacidade mais importantes do contexto de implantação e garantir que o modelo de ameaça inclua todos os recursos do invasor associados a esses riscos.
O crescente interesse em implantações práticas também está impulsionando o desenvolvimento de ferramentas de software flexíveis. Estruturas de software de código aberto como Flor,PySyft,DESTINOeTensorFlow federado estão rapidamente se tornando mais maduros e capazes, e esforços colaborativos como oLaboratório de PET da ONUoServiço Nacional de Dados Segurose desafios como oDesafio do Prêmio PETs Reino Unido-EUA continuam a aumentar a conscientização sobre a necessidade dessas tecnologias.
A seguir
As soluções para aprendizado federado que preserva a privacidade combinam sistemas distribuídos com técnicas complexas de privacidade, resultando em desafios únicos de escalabilidade. Em nosso próximo post, discutiremos esses desafios e algumas das ideias emergentes para enfrentá-los.