Você não pode remover o preconceito do aprendizado de máquina, mas pode escolher seu preconceito
O preconceito é uma questão de grande preocupação na sociedade em geral, que abraçou o conceito de que certas características: raça, gêneroIdade, código postal, por exemplo, não devem importar ao tomar decisões sobre coisas como crédito ou seguro. Mas, embora a ausência de preconceito faça sentido em um nível humano, no mundo do aprendizado de máquina é um pouco diferente.
Na teoria do aprendizado de máquina, se você puder provar matematicamente que não tem viés e encontrar o modelo ideal, o valor do modelo realmente diminuirá porque você não será capaz de fazer generalizações. O que isso nos diz é que, por mais lamentável que possa parecer, sem qualquer tendência embutida no modelo, não pode ser aprendido.
O oxímoro dos discriminadores sem discriminação
As empresas modernas querem usar o aprendizado de máquina e a mineração de dados para tomar decisões com base no que seus dados lhes dizem, mas a própria natureza dessa consulta é discriminatória. No entanto, pode não ser discriminatório da maneira como normalmente definimos a palavra. O objetivo da mineração de dados é, como Merriam Webster diz, “distinguir por perceptivo ou expor diferenças: reconhecer ou identificar como separados e distintos ”, ao invés de“ marcar uma diferença no tratamento ou favor em uma base diferente do mérito individual ”. É uma distinção sutil, mas importante.
A sociedade claramente faz julgamentos sobre as pessoas e as trata de maneira diferente com base em muitas categorias diferentes. Organizações bem-intencionadas tentam retificar ou compensar isso removendo o preconceito nos modelos de aprendizado de máquina. O que eles não percebem é que, ao fazer isso, podem complicar ainda mais as coisas. Por que é isso? Depois que você começa a excluir categorias de dados, outros componentes, recursos ou características aparecem.
Suponha, por exemplo, que você descubra que os ganhos estão distorcendo seu modelo, mas também há uma correlação entre os ganhos e o local de origem (os salários variam de acordo com a região). No momento em que você adiciona receita ao modelo, deve eliminar a discriminação colocando também a origem. É extremamente difícil garantir que não haja nada de discriminatório no modelo. Se você descobrir de onde uma pessoa vem, quanto ganha, onde mora e talvez qual é sua educação, não há muito o que dizer sobre a diferença entre uma pessoa e outra. E ainda, pode haver algum preconceito remanescente que você não tenha pensado.
Mão de David descreveu como o Reino Unido uma vez determinou que as apólices de seguro de automóveis não discriminassem condutores jovens ou idosos, nem poderiam estabelecer prêmios diferentes com base no gênero. Na superfície, isso parece bom, o mesmo. O problema é que as pessoas dentro desses grupos geralmente apresentam taxas de acidentes diferentes. Quando a idade e o sexo são incluídos no modelo de dados, isso mostra que os homens jovens têm taxas de acidentes muito mais altas e os acidentes são mais graves; portanto, eles deveriam teoricamente pagar prêmios mais elevados.
No entanto, ao eliminar as categorias de gênero e idade, as taxas das apólices diminuem para os homens jovens, permitindo que mais pessoas paguem pelo seguro. No modelo do Reino Unido, esse fator (mais homens jovens com seguro) acabou aumentando o número geral de acidentes. O modelo modificado também introduziu um novo tipo de preconceito: as mulheres pagavam uma quantia desproporcional pelo seguro em comparação com sua taxa de acidentes porque patrocinaram o maior número de acidentes entre os homens jovens. O exemplo mostra que às vezes você obtém efeitos colaterais indesejados ao remover categorias do modelo. No momento em que você tira algo, não necessariamente eliminou o preconceito. Ainda está presente nos dados, apenas de uma maneira diferente. Quando você se livra de uma categoria, começa a brincar com todo o sistema.
Encontramos o reverso do exemplo anterior na Alemanha. Lá, as seguradoras de saúde não podem cobrar de maneira diferente com base no gênero, embora homens e mulheres vivenciem condições e fatores de risco diferentes ao longo de suas vidas. Por exemplo, as mulheres geram custos significativos para o sistema de saúde em torno da gravidez e do parto, mas ninguém contesta porque o resultado é considerado positivo, em comparação com a associação negativa com acidentes de carro no Reino Unido, portanto , é percebido como justo. que esses custos sejam distribuídos uniformemente.
O perigo da omissão
O salto de dados é bastante comum e não acontece apenas quando você exclui uma categoria.
Suponha que você esteja tentando decidir quem se qualifica para um empréstimo. Mesmo os melhores modelos terão uma certa margem de erro porque você não está olhando para todas as pessoas que não conseguiram um empréstimo. Algumas pessoas que queriam empréstimos podem nunca ter entrado no banco para começar, ou talvez tenham entrado e não conseguido chegar à sua mesa; eles se assustaram com o ambiente ou ficaram nervosos por não conseguirem.
Dessa forma, seu modelo pode não conter o conjunto completo de pontos de dados de que você precisa para tomar uma decisão.
Da mesma forma, as empresas que dependem muito de modelos de aprendizado de máquina muitas vezes não percebem que estão usando dados de muitos clientes “bons” e que simplesmente não têm pontos de dados suficientes para reconhecer os “ruins”. Isso pode realmente alterar seus dados.
Você pode ver esse tipo de viés de seleção na academia, especialmente nas ciências da vida. O mantra de “publicar ou perecer” reinou por muito tempo. Mesmo assim, quantos artigos de revistas você se lembra de ter visto aquele documento reprovado nos estudos? Ninguém envia artigos que dizem: “Tentei fazer isso e realmente não funcionou”. Não apenas leva uma quantidade incrível de tempo para preparar um estudo para publicação, o autor não ganha nada publicando os resultados de um estudo que falhou. Se eu fizesse isso, minha universidade poderia olhar para o meu trabalho e dizer: “Michael, 90% dos seus trabalhos tiveram resultados ruins. O que você está fazendo? “É por isso que você só vê resultados positivos ou promissores em revistas. Em um momento em que estamos tentando aprender o máximo que podemos sobre os tratamentos COVID-19 e possíveis vacinas, os dados de falha eles são realmente importantes, mas provavelmente não aprenderemos muito sobre eles por causa de como o sistema funciona, por causa de quais dados foram selecionados para compartilhar.
Então, o que tudo isso significa?
O que tudo isso significa no sentido prático? Simplificando, a ciência de dados é difícil, o aprendizado de máquina é complicado e não existe algo como eliminar completamente o preconceito ou encontrar um modelo perfeito. Existem muitas facetas e ângulos mais nos quais poderíamos nos aprofundar quando o aprendizado de máquina atingir seu impulso principal, mas o resultado final é que somos tolos em supor que a ciência de dados é um tipo de tudo e o fim de tudo quando se trata de tente tomar boas decisões.
Isso significa que o aprendizado de máquina tem menos valor do que pensamos ou prometemos? Não, não é esse o caso. Em vez disso, simplesmente deve haver mais consciência de como o preconceito funciona, não apenas na sociedade, mas também no mundo muito diferente da ciência de dados. Quando aumentamos a conscientização sobre ciência de dados e modelagem, podemos tomar decisões informadas sobre o que incluir ou excluir, entendendo que haverá certas consequências e, às vezes, aceitando que algumas delas valem a pena.
Michael Berthold é CEO e cofundador da KNIME, uma empresa de análise de dados de código aberto. Ele tem mais de 25 anos de experiência em ciência de dados, trabalhando na academia, mais recentemente como professor sênior na Universidade de Konstanz na Alemanha e anteriormente na Universidade da Califórnia, Berkeley e Carnegie Mellon, e na indústria na Neural Grupo de Rede Intel, Utopy e Tripos. Michael publicou extensivamente sobre análise de dados, aprendizado de máquina e inteligência artificial. Siga-o no Twitter, LinkedIn e ele KNIME Blog.
Práticas recomendadas para um Centro de Excelência em IA de sucesso:
Um guia para CoE e unidades de negócios Acesse aqui