Esta postagem faz parte de uma série sobre aprendizagem federada que preserva a privacidade. A série é uma colaboração entre o NIST e a Unidade de Adoção de Tecnologia Responsável (RTA) do governo do Reino Unido, anteriormente conhecida como Centro de Ética e Inovação de Dados. Saiba mais e leia todos os posts publicados até o momento emEspaço de colaboração de engenharia de privacidade do NIST ouBlog da RTA.
Introdução
Neste post, conversamos com Dr. Xiaowei Huang eDr. Yi Dong (Universidade de Liverpool),Dr. Mat Weldon (Escritório de Estatísticas Nacionais do Reino Unido (ONS)), e Sikha Pentyala (Universidade de Washington Tacoma), que foram vencedores no Desafios do Prêmio PETs Reino Unido-EUA. Nós discutimos desafios e soluções de escalabilidade no aprendizado federado com preservação da privacidade (PPFL). O aprendizado federado tradicional permite o dimensionamento para conjuntos de dados de treinamento extremamente grandes, aproveitando o poder de computação distribuído; adicionar técnicas de preservação de privacidade pode introduzir novos desafios de escalabilidade específicos para PPFL.
Desafios da expansão
Um grande desafio de escalar sistemas PPFL para grandes conjuntos de dados e muitos clientes vem dos desafios computacionais da criptografia usada para implementar defesas PPFL. Técnicas como criptografia totalmente homomórfica (FHE) e computação multipartidária (MPC) podem proteger cálculos confidenciais, mas geralmente introduzem uma sobrecarga significativa de desempenho. Além disso, os sistemas práticos de PPFL geralmente precisam trabalhar com clientes heterogêneos que possuem diferentes dados e habilidades computacionais. Os Desafios de Prêmio Reino Unido-EUA foram projetados não apenas para testar se as soluções ofereciam um forte nível de privacidade, mas também para estabelecer se elas poderiam alcançar um desempenho prático em aplicativos do mundo real em escala. Perguntamos a alguns dos vencedores sobre os desafios de escalabilidade que eles tiveram que enfrentar e sobre como a forma como os dados são distribuídos afeta as soluções.
Autores: Como a distribuição de dados afeta a capacidade de expansão dos sistemas PPFL?
Sikha Pentyala, equipe PPMLHuskies: Uma das maiores lacunas é o desenvolvimento de técnicas gerais de defesa para FL com cenários arbitrários de distribuição de dados. Isso inclui dados distribuídos horizontalmente, como dados em diferentes hospitais, cada um com seus próprios pacientes, bem como dados distribuídos verticalmente, como em cenários em que os dados de um paciente são distribuídos em várias entidades (hospitais, empresas, laboratórios, etc.). Embora a literatura atual se concentre principalmente em cenários de distribuição horizontal, menos foco tem sido em distribuições verticais ou arbitrárias. Soluções baseadas em criptografia, como Secure Multi-Party Computation e Homomorphic Encryption, funcionam para partições arbitrárias, mas incorrem em custos computacionais significativos. O desenvolvimento de algoritmos, protocolos e ferramentas mais eficientes, capazes de lidar com conjuntos de dados em larga escala e modelos complexos, é crucial para aplicações práticas com partições arbitrárias.
Autores: Como as diferenças entre os clientes afetam o desempenho dos sistemas PPFL?
Sikha Pentyala, equipe PPMLHuskies: A FL em uma configuração heterogênea entre dispositivos pode trazer desafios adicionais de engenharia, em termos de controle de versão e sincronização do modelo. Os algoritmos de amostragem de seleção de clientes exigiriam acesso às configurações do dispositivo, o que torna desafiador alcançar uma amostragem privada e justa de clientes.
Desafios da redução
Nossas discussões com equipes vencedoras do Os Desafios do Prêmio PETs Reino Unido-EUA também destacaram um segundo desafio de adicionar tecnologias de preservação da privacidade aos sistemas de aprendizado federados: os sistemas PPFL geralmente executam melhor quando eles têm acesso a Mais dados.
Autores: Existem desafios adicionais no contexto da implantação de sistemas PPFL em conjuntos de dados menores ou federações?
Dr. Mat Weldon, ONS:O aprendizado federado tem um desafio de escalabilidade reversa: existem métodos que funcionam bem o suficiente em grandes blocos de dados, que não são bem dimensionados para dados menores. A privacidade diferencial é um exemplo, Uma área ativa de pesquisa é como alcançar a privacidade diferencial ‘local’ de alto desempenho no nível de um único registro.
Atualmente, o método de privacidade de saída dominante para aprendizado de máquina é o Gradiente Descendente Estocástico Diferencialmente Privado (DP-SGD). No entanto, o DP-SGD é muito ineficiente, no sentido de que desfoca tanto as atualizações do modelo (gradientes) que grandes quantidades de dados sãosão necessários para atingir um nível satisfatório de desempenho.
Dr. Xiaowei Huang e Dr. Yi Dong, Universidade de Liverpool:Em nossos experimentos anteriores de FL, observamos um trade-off entre o número de clientes e a precisão final dos modelos treinados. Essa compensação varia dependendo do modelo que está sendo treinado e do conjunto de dados usado. Não é um caso simples em que aumentar o número de participantes sempre leva a melhores resultados, nem reduzi-los necessariamente melhora os resultados. Parece haver um ponto ideal em termos do número de partes envolvidas no processo de treinamento, o que maximiza a precisão do treinamento. No entanto, não é fácil encontrar um ponto tão ideal.
Desafios da Coordenação e Qualidade de Dados
Finalmente, um desafio específico do PPFL é o fato de que nenhum participante tem acesso a todos os dados, portanto, não é possível realizar uma avaliação global da qualidade e das propriedades dos dados. Por exemplo, alguns participantes podem contribuir com dados de baixa qualidade para o processo de treinamento ou podem usar um formato de dados diferente dos outros participantes. Como os sistemas PPFL são projetados para proteger os dados, não é fácil descobrir esses tipos de problemas antes do início do treinamento.
Autores: Existem desafios de qualidade e coordenação de dados específicos para os sistemas PPFL?
Dr. Xiaowei Huang e Dr. Yi Dong, Universidade de Liverpool: O segundo desafio é a detecção precisa de possíveis invasores. Devido à natureza amigável à privacidade do PPFL e às informações limitadas disponíveis sobre os dados dos usuários devido ao aprendizado federado, torna-se difícil distinguir entre ataques maliciosos e atualizações ruins. É um desafio identificar e entender o usuário por trás dos dados, dificultando a exclusão eficiente de possíveis invasores do processo de aprendizado.
Dr. Mat Weldon, ONS:No aprendizado federado, a necessidade de privacidade leva a desafios de qualidade de dados em torno do alinhamento de especificações e definições de dados. Se a arquitetura de aprendizado federado fosse projetada ao mesmo tempo que a coleta de dados, isso não seria um problema. Mas, na maioria dos casos, os dados terão sido coletados por diferentes proprietários, possivelmente com especificações diferentes. Nessas aplicações, o maior obstáculo à qualidade dos dados será alinhar as especificações e definições de dados em um ambiente sem olhos, sem ser capaz de solucionar problemas manualmente.
Para aplicativos de aprendizado federado vertical, como detecção de fraudes financeiras, problemas de alinhamento de especificação de dados como esse terão um impacto especialmente grande na precisão da correspondência de registros, tornando os métodos robustos de vinculação de registros com preservação de privacidade (PPRL) ainda mais importantes.
Enfrentando o desafio
As soluções vencedoras nos Desafios do Prêmio PETs Reino Unido-EUA destacaram os desenvolvimentos recentes na pesquisa do PPFL que podem ajudar a enfrentar todos os três desafios descritos anteriormente. Por exemplo, para enfrentar os desafios de escalabilidade do PPML em dados particionados verticalmente, a solução Scarlet Pets combinou um filtro Bloom com criptografia leve para agregação (como descrito em nosso post anterior) para produzir um sistema que se adaptasse a muitos clientes no contexto de dados distribuídos verticalmente. No contexto de dados distribuídos horizontalmente, implantações como a do Google demonstraram a viabilidade das técnicas atuais em milhares de dispositivos.
Para enfrentar o desafio da precisão do modelo sob PPFL, pesquisas em andamento no campo da privacidade diferencial estão investigando métodos para reduzir o impacto do ruído em modelos treinados. Por exemplo, o pré-treinamento em dados públicos agora é comum no aprendizado de máquina centralizado, embora não tenha sido usado nos Desafios do Prêmio PETs Reino Unido-EUA; futuros sistemas PPFL provavelmente podem melhorar significativamente a precisão, aproveitando essa ideia.
Para enfrentar o desafio da coordenação de dados, pesquisas recentes começaram a explorar abordagens para Validação segura de entradae Avaliação de dados. Essas técnicas podem ajudar a garantir que todos os participantes forneçam dados com o formato correto e qualidade suficiente para ajudar a melhorar o modelo treinado, sem revelar os dados. Os exemplos incluem criptografia para validação de entrada e novas defesas para proteção contra participantes bizantinos (que podem realizar ações maliciosas arbitrárias a qualquer momento).
A seguir…
Nosso próximo post se concentrará nos desafios práticos associados a todo o pipeline de dados necessário para implantar uma solução PPFL.