Desafios do pipeline de dados do aprendizado federado que preserva a privacidade

Introdução

Neste post, conversamos comDr. Xiaowei Huang eDr. Yi Dong (Universidade de Liverpool) eSikha Pentyala (Universidade de Washington Tacoma), que foram vencedores no Desafios do Prêmio PETs Reino Unido-EUA. Discutimos os desafios do pipeline de dados do mundo real associados ao aprendizado federado (PPFL) que preserva a privacidade e exploramos as próximas soluções. Ao contrário do aprendizado centralizado ou federado tradicional, as soluções PPFL impedem que a organização que treina o modelo examine os dados de treinamento. Isso significa que é impossível para essa organização avaliar a qualidade dos dados de treinamento – ou mesmo saber se tem o formato correto. Esse problema pode levar a vários desafios importantes nas implantações de PPFL.

Desafios de pré-processamento e consistência de dados

No aprendizado de máquina centralizado, os problemas de qualidade dos dados de treinamento geralmente são tratados em uma etapa de pré-processamento antes do treinamento. As soluções de pesquisa para LPPP tendem a ignorar essa etapa e se concentrar apenas no treinamento.

Os Desafios do Prêmio PETs Reino Unido-EUA envolveram dados realistas, mas garantiram que os conjuntos de dados estivessem limpos, consistentes e prontos para uso no treinamento. Perguntamos a alguns dos vencedores sobre os desafios associados que podem surgir em implantações reais, onde essa suposição de dados limpos pode ser violada.

Autores: O PPFL introduz novos desafios associados à formatação e qualidade dos dados?

Sikha Pentyala (Universidade de Washington, Tacoma):Os algoritmos atuais para aprendizado federado são quase inteiramente focados na etapa de treinamento do modelo. O treinamento de modelo é, no entanto, apenas uma pequena parte do fluxo de trabalho de aprendizado de máquina. Na prática, os cientistas de dados gastam muito tempo na preparação e limpeza de dados, lidando com valores ausentes, construção e seleção de recursos, etc. A pesquisa sobre como realizar essas etapas cruciais em um ambiente federado, em que um cientista de dados em um local (cliente) não é capaz de espiar os dados em outro local, é muito limitada.

Dr. Xiaowei Huang e Dr. Yi Dong (Universidade de Liverpool): Existem desafios que podem resultar de diferenças na natureza dos dados locais e de métodos de pré-processamento de dados inconsistentes entre diferentes agentes locais. Essas são fontes de possíveis problemas que podem levar a falhas inesperadas na implantação.

Confiabilidade e qualidade dos dados do participante

Um desafio adicional associado à qualidade dos dados no PPFL é que é difícil detectar quando algo dá errado. Em algumas implantações, é possível que alguns dos participantes enviem dados de baixa qualidade ou criados com códigos maliciosos para reduzir intencionalmente a qualidade do modelo treinado – e as proteções de privacidade fornecidas pelos sistemas PPFL podem dificultar a detecção dessas ações.

Além disso, desenvolver soluções automatizadas para detectar participantes mal-intencionados sem prejudicar a privacidade de participantes honestos é extremamente desafiador, porque muitas vezes não há diferença observável entre um participante mal-intencionado e um honesto com dados de baixa qualidade. Perguntamos a alguns dos vencedores do Desafio do Prêmio PETs do Reino Unido-EUA sobre essas questões.

Autores: Como os sistemas PPFL complicam a detecção de participantes mal-intencionados e dados de baixa qualidade?

Dr. Xiaowei Huang e Dr. Yi Dong (Universidade de Liverpool): [One] desafio é a detecção precisa de possíveis invasores. Devido à natureza amigável à privacidade do PPFL e às informações limitadas disponíveis sobre os dados dos usuários devido ao aprendizado federado, torna-se difícil distinguir entre ataques maliciosos e atualizações ruins. É um desafio identificar e entender o usuário por trás dos dados, dificultando a exclusão eficiente de possíveis invasores do processo de aprendizado.

[Another] O desafio gira em torno da falta de meios eficazes para avaliar a confiabilidade dos usuários, pois não há referência para comparação. A maioria dos cenários no PPFL envolve usuários com conjuntos de dados não idênticos e distribuídos independentemente. Como os usuários não estão cientes da distribuição geral de dados brutos, o modelo global é significativamente influenciado pelos dados variados contribuídos por diferentes usuários. Essa variação pode levar a divergências ou dificuldade em convergir para um ótimo global. Além disso, sem saber a resposta correta, os servidores centrais ou sistemas federados de aprendizado são facilmente enganados por ataques direcionados que alimentam informações enganosas, potencialmente influenciando o modelo global na direção errada.

Enfrentando o desafio

Os desafios descritos neste post foram em sua maioria excluídos dos Desafios do Prêmio PETs Reino Unido-EUA. Os dados foram distribuídos de forma idêntica e independente entre os participantes, seguiu um formato pré-acordado e não incluiu dados inválidos ou envenenados. Algumas soluções eram robustas contra certos tipos de comportamento malicioso dos participantes, mas os desafios não exigiam que as soluções fossem robustas para Fracassos bizantinos – situações em que um ou mais participantes podem se desviar arbitrariamente do protocolo (por exemplo, desistindo, falsificando informações de comunicação ou se passando por outra parte, ou enviando dados envenenados).

Pesquisas recentes estão começando a abordar todos esses desafios. Como mencionado no último post, técnicas seguras de validação de entrada podem ajudar a evitar o envenenamento de dados. Trabalho existente sobre envenenamento de dados defesas (no aprendizado federado não privado) está sendo adaptado em defesas para aprendizado federado que preserva a privacidade, como FLTrust e Eiffel. Essas técnicas podem ajudar a garantir que os dados fornecidos pelos participantes estejam no formato correto e ajudem – em vez de prejudicar – o processo de treinamento do modelo, sem exigir acesso direto aos dados em si. Grande parte dessa pesquisa ainda não está implementada em bibliotecas práticas para PPFL, mas podemos esperar que esses resultados passem da pesquisa para a prática nos próximos anos.

A seguir

Nossa próxima postagem concluirá esta série de blogs com algumas reflexões e considerações mais amplas sobre o aprendizado federado que preserva a privacidade.

Datalake – Azaeo:

TXT | JSON | JSONLD | XML | HTML | PDF