More

    Como nossos dados codificam o racismo sistemático


    Um dia o GPT-2, uma versão anterior disponível ao público do modelo de geração automatizada de linguagem desenvolvido pela organização de pesquisa OpenAI, começou a falar comigo abertamente sobre os “direitos dos brancos”. Recebendo instruções simples como “um homem branco é” ou “uma mulher negra é”, o texto gerado pelo modelo seria lançado em discussões sobre “nações arianas brancas” e “invasores estrangeiros e não brancos”.

    Não apenas essas diatribes incluíam calúnias horríveis como “vadia”, “vagabunda”, “nigger”, “chink” e “slanteye”, mas o texto gerado incorporou uma retórica nacionalista branca americana específica, descrevendo “ameaças demográficas” e se voltando para apartes anti-semitas contra “judeus” e “comunistas”.

    O GPT-2 não pensa por si mesmo – ele gera respostas replicando padrões de linguagem observados nos dados usados ​​para desenvolver o modelo. Este conjunto de dados, denominado WebText, contém “mais de 8 milhões de documentos para um total de 40 GB de texto” provenientes de hiperlinks. Esses links foram selecionados a partir de postagens mais votadas no site de mídia social Reddit, como “um indicador heurístico para saber se outros usuários acharam o link interessante, educacional ou apenas engraçado”.

    No entanto, os usuários do Reddit – incluindo aqueles que enviam e votam positivamente – são conhecidos por incluir os supremacistas brancos. Durante anos, a plataforma estava repleta de linguagem racista e permitia links para conteúdo que expressasse ideologia racista. E embora existam opções práticas disponíveis para conter esse comportamento na plataforma, as primeiras tentativas sérias de ação, pela então CEO Ellen Pao, em 2015, foram mal recebidas pela comunidade e levaram a intensos assédio e reação.

    Seja lidando com policiais rebeldes ou usuários rebeldes, os tecnólogos optam por permitir que essa visão de mundo opressiva em particular se solidifique em conjuntos de dados e defina a natureza dos modelos que desenvolvemos. A própria OpenAI reconheceu as limitações de obter dados do Reddit, observando que “muitos grupos maliciosos usam esses fóruns de discussão para se organizar”. No entanto, a organização também continua a fazer uso do conjunto de dados derivados do Reddit, mesmo em versões subsequentes de seu modelo de linguagem. A natureza perigosamente falha das fontes de dados é efetivamente descartada por uma questão de conveniência, apesar das consequências. A intenção maliciosa não é necessária para que isso aconteça, embora uma certa passividade e negligência irrefletidas o sejam.

    Mentirinhas brancas

    A supremacia branca é a falsa crença de que os indivíduos brancos são superiores aos de outras raças. Não é um simples equívoco, mas uma ideologia enraizada no engano. A raça é o primeiro mito, a superioridade o seguinte. Os defensores dessa ideologia se agarram obstinadamente a uma invenção que os privilegia.

    Eu ouço como essa mentira suaviza a linguagem de uma “guerra às drogas” para uma “epidemia de opióides” e culpa a “saúde mental” ou “videogames” pelas ações dos agressores brancos, mesmo atribuindo “preguiça” e “criminalidade” a vítimas não brancas. Percebo como isso apaga aqueles que se parecem comigo e vejo como se desenrola em um desfile interminável de rostos pálidos do qual não consigo escapar – em filmes, em capas de revistas e em shows de prêmios.

    Os conjuntos de dados especificamente construídos em e para espaços em branco representam a realidade construída, não a natural.

    Essa sombra segue todos os meus movimentos, um calafrio desconfortável na minha nuca. Quando ouço “assassinato”, não vejo apenas o policial com o joelho na garganta ou o vigilante desorientado com uma arma ao lado – é a economia que nos estrangula, a doença que nos enfraquece e o governo que nos silencia.

    Diga-me: qual é a diferença entre o policiamento excessivo em bairros de minorias e o viés do algoritmo que enviou policiais para lá? Qual é a diferença entre um sistema escolar segregado e um algoritmo de classificação discriminatório? Entre um médico que não escuta e um algoritmo que nega uma cama de hospital? Não há racismo sistemático separado de nossas contribuições algorítmicas, da rede oculta de implantações algorítmicas que regularmente desabam sobre aqueles que já são mais vulneráveis.

    Resistindo ao determinismo tecnológico

    A tecnologia não é independente de nós; é criado por nós e temos controle total sobre ele. Os dados não são apenas arbitrariamente “políticos” – existem políticas específicas tóxicas e mal informadas que os cientistas de dados permitem que se infiltrem em nossos conjuntos de dados. A supremacia branca é uma delas.

    Já inserimos a nós mesmos e nossas decisões no resultado – não existe uma abordagem neutra. Não há nenhuma versão futura de dados que seja magicamente imparcial. Os dados serão sempre uma interpretação subjetiva da realidade de alguém, uma apresentação específica dos objetivos e perspectivas que escolhemos priorizar neste momento. Esse é um poder mantido por aqueles de nós responsáveis ​​por buscar, selecionar e projetar esses dados e desenvolver os modelos que interpretam as informações. Essencialmente, não há troca de “justiça” por “precisão” – isso é um sacrifício mítico, uma desculpa para não assumir nosso papel em definir o desempenho com exclusão de outros em primeiro lugar.


    Artigos Recentes

    Artigos Relacionados

    DEIXE UMA RESPOSTA

    Por favor digite seu comentário!
    Por favor, digite seu nome aqui