More

    Você não pode eliminar o preconceito do aprendizado de máquina, mas pode escolher seu preconceito


    O preconceito é um grande tópico de preocupação na sociedade em geral, que adotou o conceito de que certas características – raça, sexo, idade ou código postal, por exemplo – não deveriam importar ao tomar decisões sobre coisas como crédito ou seguro. Mas, embora a ausência de preconceito faça sentido em um nível humano, no mundo do aprendizado de máquina é um pouco diferente.

    Na teoria do aprendizado de máquina, se você puder provar matematicamente que não tem nenhum viés e se encontrar o modelo ideal, o valor do modelo na verdade diminui porque você não será capaz de fazer generalizações. O que isso nos diz é que, por mais lamentável que possa parecer, sem qualquer tendência embutida no modelo, você não pode aprender.

    O oxímoro dos discriminadores sem discriminação

    As empresas modernas querem usar o aprendizado de máquina e a mineração de dados para tomar decisões com base no que seus dados lhes dizem, mas a própria natureza dessa investigação é discriminatória. No entanto, talvez não seja discriminatório da maneira como normalmente definimos a palavra. O objetivo da mineração de dados é, como Merriam-Webster coloca, “distinguir por discernir ou expor diferenças: reconhecer ou identificar como separado e distinto”, em vez de “fazer uma diferença no tratamento ou favorecimento em uma base diferente do individual mérito.” É uma distinção sutil, mas importante.

    A sociedade claramente faz julgamentos sobre as pessoas e as trata de maneira diferente com base em muitas categorias diferentes. Organizações bem-intencionadas tentam retificar ou compensar isso eliminando o preconceito nos modelos de aprendizado de máquina. O que eles não percebem é que, ao fazer isso, pode bagunçar ainda mais as coisas. Por que é isso? Depois de começar a remover categorias de dados, outros componentes, características ou traços entram sorrateiramente.

    Suponha, por exemplo, que você descubra que a renda está influenciando seu modelo, mas também há uma correlação entre a renda e a origem de alguém (os salários variam de acordo com a região). No momento em que você adiciona renda ao modelo, precisa discriminar isso inserindo também a origem. É extremamente difícil ter certeza de que você não tem nada de discriminatório no modelo. Se você tirar de onde uma pessoa vem, quanto ganha, onde mora e talvez qual seja sua educação, não sobra muito que permita determinar a diferença entre uma pessoa e outra. E ainda assim, pode haver algum preconceito remanescente que você não tenha pensado.

    David Hand descreveu como o Reino Unido uma vez determinou que as apólices de seguro de automóveis não discriminassem condutores jovens ou idosos, nem poderiam estabelecer prêmios diferentes por gênero. Superficialmente, isso parece bom, muito igual. O problema é que as pessoas dentro desses grupos geralmente apresentam taxas de acidentes diferentes. Quando a idade e o sexo são incluídos no modelo de dados, isso mostra que os homens jovens têm taxas de acidentes muito mais altas e os acidentes são mais graves; portanto, eles deveriam teoricamente pagar prêmios mais elevados.

    Ao remover as categorias de gênero e idade, no entanto, as taxas das apólices caem para os homens jovens, permitindo que mais pessoas tenham acesso ao seguro. No modelo do Reino Unido, esse fator – mais homens jovens com seguro – acabou aumentando o número geral de acidentes. O modelo alterado também introduziu um novo tipo de preconceito: as mulheres estavam pagando uma quantia desproporcional pelo seguro em comparação com a taxa de acidentes porque estavam patrocinando o aumento do número de acidentes com jovens do sexo masculino. O exemplo mostra que às vezes você obtém efeitos colaterais indesejados removendo categorias do modelo. No momento em que você tira algo, você não necessariamente eliminou o preconceito. Ainda está presente nos dados, mas de uma maneira diferente. Quando você se livra de uma categoria, começa a bagunçar todo o sistema.

    Encontramos o reverso do exemplo acima na Alemanha. Lá, as seguradoras de saúde não podem cobrar de maneira diferente com base no gênero, embora homens e mulheres vivenciem claramente condições e fatores de risco diferentes ao longo de suas vidas. Por exemplo, as mulheres geram custos significativos para o sistema de saúde em torno da gravidez e do parto, mas ninguém discute sobre isso porque o resultado é visto como positivo – versus a associação negativa com acidentes de carro no Reino Unido – portanto, é considerado justo que esses custos sejam distribuídos uniformemente.

    O perigo da omissão

    A omissão de dados é bastante comum e não ocorre apenas quando você remove uma categoria.

    Suponha que você esteja tentando decidir quem está qualificado para um empréstimo. Mesmo os melhores modelos terão uma certa margem de erro, porque você não está olhando para todas as pessoas que acabaram não conseguindo um empréstimo. Algumas pessoas que queriam empréstimos podem nunca ter entrado no banco, ou talvez tenham entrado e não conseguido chegar à sua mesa; eles se assustaram com base no ambiente ou ficaram nervosos porque não teriam sucesso.

    Como tal, seu modelo pode não conter o conjunto abrangente de pontos de dados de que precisa para tomar uma decisão.

    Da mesma forma, as empresas que dependem fortemente de modelos de aprendizado de máquina muitas vezes não percebem que estão usando dados de muitos clientes “bons” e que simplesmente não têm pontos de dados suficientes para reconhecer os “ruins”. Isso pode realmente bagunçar seus dados.

    Você pode ver esse tipo de viés de seleção em ação na academia, em ciências da vida em particular. O mantra “publique ou pereça” já existe há muito tempo. Mesmo assim, quantos artigos de periódicos você se lembra de ter visto aquele documento que falhou nos estudos? Ninguém publica documentos que dizem: “Eu tentei isso e realmente não funcionou”. Não só leva uma quantidade incrível de tempo para preparar um estudo para publicação, como o autor não ganha nada em divulgar os resultados de um estudo que falhou. Se eu fizesse isso, minha universidade poderia olhar para o meu trabalho e dizer: “Michael, 90% dos seus trabalhos tiveram resultados ruins. O que você está fazendo?” É por isso que você só vê resultados positivos ou promissores em periódicos. Em um momento em que estamos tentando aprender o máximo que podemos sobre os tratamentos COVID-19 e vacinas potenciais, os dados das falhas são realmente importantes, mas não é provável que aprendamos muito sobre eles por causa de como o sistema funciona, porque de quais dados foram selecionados para compartilhamento.

    Então, o que tudo isso significa?

    O que tudo isso significa no sentido prático? Em suma, a ciência de dados é difícil, o aprendizado de máquina é confuso e não existe algo como eliminar completamente o preconceito ou encontrar um modelo perfeito. Existem muitas, muitas facetas e ângulos mais nos quais poderíamos nos aprofundar conforme o aprendizado de máquina atinge seu ritmo principal, mas o ponto principal é que somos tolos se presumirmos que a ciência de dados é uma espécie de ponto-chave e fim de tudo quando trata-se de tomar boas decisões.

    Isso significa que o aprendizado de máquina tem menos valor do que pensamos ou prometemos? Não, não é esse o caso. Em vez disso, simplesmente precisa haver mais consciência de como o viés funciona – não apenas na sociedade, mas também no mundo muito diferente da ciência de dados. Quando trazemos consciência para a ciência de dados e a criação de modelos, podemos tomar decisões informadas sobre o que incluir ou excluir, entendendo que haverá certas consequências – e às vezes aceitando que algumas consequências valem a pena.

    Michael Berthold é CEO e cofundador da KNIME, uma empresa de análise de dados de código aberto. Ele tem mais de 25 anos de experiência em ciência de dados, trabalhando na academia, mais recentemente como professor titular na Konstanz University na Alemanha e anteriormente na University of California, Berkeley e Carnegie Mellon, e na indústria no Neural Network Group da Intel, Utopy, e Tripos. Michael publicou extensivamente sobre análise de dados, aprendizado de máquina e inteligência artificial. Siga-o no Twitter, LinkedIn e o blog KNIME.


    Práticas recomendadas para um Centro de Excelência em IA de sucesso:

    Um guia para CoEs e unidades de negócios Acesse aqui





    Artigos Recentes

    O Manchester United não disse se recebeu pedidos de resgate por causa de um ataque cibernético

    O jogo do United na Liga dos Campeões com os turcos do Istanbul Basaksehir ocorreu como planejado na terça-feiraO Manchester United não disse...

    Apostas esportivas e IA: The Ultimate Gamble

    Os apostadores e casas de apostas de esportes estão sempre procurando uma vantagem. As apostas esportivas são uma grande indústria que cresceu...

    Melhores ofertas da Black Friday: ofertas noturnas agora ao vivo em telefones, jogos e muito mais

    Melhores ofertas da Black Friday no Reino Unido 2020: Como o primeiro dia de venda da Black Friday está chegando ao fim, ainda...

    Artigos Relacionados

    DEIXE UMA RESPOSTA

    Por favor digite seu comentário!
    Por favor, digite seu nome aqui