Distribuição de dados no aprendizado federado que preserva a privacidade - Against Invaders

Esta postagem faz parte de uma série sobre aprendizagem federada que preserva a privacidade. A série é uma colaboração entre o NIST e a Unidade de Adoção de Tecnologia Responsável (RTA) do governo do Reino Unido, anteriormente conhecida como Centro de Ética e Inovação de Dados. Saiba mais e leia todos os posts publicados até o momento emEspaço de colaboração de engenharia de privacidade do NISTou Blog da RTA.

Nosso primeira postagem Na série introduziu o conceito de aprendizado federado e descreveu como ele é diferente do aprendizado centralizado tradicional – no aprendizado federado, os dados são distribuídos entre as organizações participantes e compartilham atualizações de modelo (em vez de dados brutos).

Que tipos de técnicas podemos usar para construir sistemas de aprendizado federado que preservam a privacidade? Acontece que depende muito de Como os dados são distribuídos. Este post define e explica as diferentes maneiras pelas quais os dados podem ser distribuídos, ou Particionada, entre os participantes de sistemas federados de aprendizagem. Postagens futuras da série descreverão técnicas específicas aplicáveis em cada situação.

Os esquemas de particionamento de dados descrevem como os dados são distribuídos entre as organizações participantes, em comparação com o esquema centralizado no qual uma parte detém todos os dados.

Em um Divisória horizontal esquema, o Linhas dos dados são distribuídos entre os participantes.
Em um Divisória verticalesquema, o Colunas dos dados são distribuídos entre os participantes.

Combinações dos dois também são possíveis – falaremos sobre elas no final deste post.

Particionamento horizontal

Considere nosso cenário de exemplo do primeiro post desta série: um consórcio de bancos deseja treinar um modelo para detectar transações fraudulentas. Este é um exemplo de Divisória horizontal: cada banco detém dados completos de transações (ou seja, contendo todas as colunas relevantes) para seus clientes, e é o Linhas de dados que diferem entre os bancos.

Figura 1: Dados particionados horizontalmente. As partições dividem o Linhas dos dados, mas não o Colunas. Cada partição contém linhas distintas, mas o mesmo conjunto de colunas. Observe que os valores de dados mostrados são fictícios.

Crédito:

NIST

O termo Divisória horizontal vem do fato de que a versão centralizada do cenário pode ser transformada na versão distribuída desenhando linhas horizontais para indicar as diferentes partições, conforme mostrado no exemplo da Figura 1.

Em geral, é mais fácil criar sistemas de aprendizado federado que preservam a privacidade para dados particionados horizontalmente do que criar sistemas semelhantes para dados particionados verticalmente. Isso é verdade porque quando os dados são particionados horizontalmente, cada partição pode ser vista como um Conjunto de dados completo (ou seja, não faltam colunas), o que significa Cada participante pode treinar um modelo localmente sem consultar outros participantes.

Alguns tipos de modelos podem ser compostos depois de treinados, o que leva diretamente a uma abordagem simples, mas elegante, para aprendizado federado para dados particionados horizontalmente: primeiro, cada participante treina um modelo localmente em seus próprios dados; Em seguida, os modelos treinados são compostos para formar um modelo final mais eficaz. Discutiremos abordagens que seguem essa estrutura no próximo post da série.

O Trilha de Saúde Pública dos desafios de prêmios de animais de estimação EUA-Reino Unido foi um exemplo de dados particionados horizontalmente. Nessa trilha, os dados sobre indivíduos em uma população gerada sinteticamente foram distribuídos em vários distritos sanitários. Cada distrito continha informações sobre cada indivíduo, como seus atributos demográficos, contatos sociais e status de infecção. O aprendizado federado que preserva a privacidade nessas partições horizontais foi então usado para treinar modelos para prever o risco futuro de infecção de um indivíduo.

Particionamento vertical

Considere um cenário alternativo envolvendo um único banco (ainda mantendo os dados de transações dos clientes) e uma agência de relatórios de crédito que detém classificações de crédito. As duas organizações podem querer treinar um modelo que aproveite ambos os dados da transação e a pontuação de crédito de um único cliente. Este é um exemplo de Divisória vertical: as duas organizações detêm diferentes tipos de dados sobre o mesmos indivíduos; Nesse caso, é o Colunas de dados que diferem entre os participantes.

Figura 2: Dados particionados verticalmente. As partições dividem as colunas dos dados, mas não as linhas. Cada partição contém o mesmo conjunto de linhas, mas um conjunto distinto de colunas. Observe que os valores de dados mostrados são fictícios. — **Figura 2: Dados particionados verticalmente. As partições dividem o** **Colunas** **dos dados, mas não o** **Linhas. Cada partição contém o mesmo conjunto de linhas, mas um conjunto distinto de colunas. Observe que os valores de dados mostrados são fictícios.**

Crédito:

NIST

Desta vez, transformar a versão centralizada do cenário na versão distribuída envolve desenhar vertical linhas para indicar as diferentes partições, como mostrado no exemplo da Figura 2.

Os sistemas de aprendizado federado que preservam a privacidade para dados particionados verticalmente são especialmente desafiadores, principalmente devido à necessidade de Vincule-se pontos de dados de diferentes partições sobre o mesmo indivíduo ou entidade durante o treinamento. Em contraste com o aprendizado federado particionado horizontalmente, geralmente não é possível treinar modelos separados em diferentes Colunas dos dados (mas sobrepostos Linhas) e depois compô-los.

Como resultado, os sistemas de aprendizado federado que preservam a privacidade com dados particionados verticalmente são geralmente mais complexos e desafiadores de construir. Discutiremos técnicas para construir esses sistemas mais adiante na série.

Combinando particionamento vertical e horizontal

Na prática, o aprendizado federado geralmente envolve dados de treinamento distribuídos em uma combinação de partições verticais e horizontais. Esta foi uma característica do Trilha de crimes financeiros dos desafios do prêmio PETs EUA-Reino Unido.

O objetivo desta trilha foi treinar um modelo de detecção de anomalias usando um conjunto de dados sintético que representa dados de transações de uma rede global de pagamentos, enriquecido com metadados sintéticos de contas (por exemplo, pontuações de crédito) mantidos por bancos. Os metadados da conta foram particionados horizontalmente, com cada banco parceiro armazenando os mesmos campos de metadados (ou seja, as mesmas colunas) para cada uma de suas contas registradas.

Figura 3: Particionamento combinado. Os metadados da conta mantidos pelos bancos (a pontuação de crédito de cada conta) são particionados horizontalmente e os dados de transação mantidos pela rede de pagamento são particionados verticalmente. Observe que os valores de dados mostrados são fictícios.

Crédito:

NIST

Cada transação mantida pela rede de pagamento só pode ser enriquecida com metadados de conta vinculando em um ID de conta apropriado. Os bancos não têm acesso aos dados de transação mantidos pela rede de pagamento, o que significa que a vinculação de dados precisa ser feita de maneira segura e privada. Além disso, o particionamento horizontal dos metadados da conta significa que é necessário um método eficiente para determinar qual banco parceiro é relevante para a vinculação de uma conta específica.

Este exemplo mostra que cenários que envolvem particionamento horizontal e vertical trazem complexidades adicionais. Nesse cenário, treinar um modelo que possa detectar fraudes com alta precisão – ao mesmo tempo em que garante a privacidade – é especialmente desafiador. Postagens futuras desta série descreverão esses desafios e explorarão algumas das técnicas usadas para resolvê-los nos desafios do prêmio PETs EUA-Reino Unido.

A seguir

Em nossa próxima postagem, começaremos a explorar abordagens práticas para proteger a privacidade nos diferentes cenários de particionamento descritos acima, começando com um mergulho profundo nas abordagens de privacidade de entrada para dados particionados horizontalmente.

Datalake – Azaeo:

TXT | JSON | JSONLD | XML | HTML | PDF