Dados demográficos

Quando a tecnologia preditiva se torna antiética?

Eric Siegel
23 de março de 2021

O aprendizado de máquina pode descobrir muitas coisas a seu respeito — inclusive algumas de suas informações mais sigilosas. Por exemplo, pode predizer sua orientação sexual, se está grávida, se vai deixar seu emprego ou se há a possiblidade de que possa morrer em breve. Pesquisadores podem prever a raça de alguém com base em curtidas no Facebook, e autoridades na China usam o reconhecimento facial para identificar e monitorar os Uigures, um grupo de minoria étnica.

Leia também:

O que os seus KPIs estão realmente medindo?

Para identificar os riscos com antecedência, invista em análise de dados

Agora, as máquinas realmente “sabem” coisas a seu respeito, ou estão apenas fazendo adivinhações sugeridas? Caso estejam inferindo algo a seu respeito, da mesma forma que qualquer pessoa que conheça você possa fazer, há realmente algum problema em serem tão astutos?

Vejamos alguns casos:

Nos EUA, o caso da Target, predizendo quem está gravida, talvez seja o exemplo mais conhecido de um algoritmo fazendo inferências pessoais sobre alguém. Em 2012, uma história do New York Times sobre como as empresas podem potencializar seus dados incluía uma história sobre um pai que ficou sabendo que sua filha adolescente estava grávida, pois o Target enviou-lhe cupons de descontos em artigos para bebês, em uma tentativa aparente de “adivinhação’’. Embora a história sobre a adolescente possa ser  questionável, — mesmo que, de fato, tenha acontecido, o envio dos cupons pode ter sido apenas uma coincidência e não responsabilidade de uma análise preditiva; de acordo com os procedimentos da Target detalhados na história do The New York Times,  existe um risco verdadeiro à privacidade sob a perspectiva deste projeto preditivo. Afinal, se o departamento de marketing de uma empresa prediz quem está grávida, eles têm acesso a dados médicos sigilosos que apenas os profissionais da saúde, treinados para tal, podem controlar e proteger.

O acesso mal gerenciado deste tipo de informação pode ter sérias implicações na vida de alguém. De acordo com um post publicado na internet por um cidadão bastante preocupado, imagine que essa grávida “esteja com seu emprego por um triz, e [ela] ainda não acertou os detalhes de sua licença maternidade… revelar sua condição pode colocar em risco o custo total do parto (aproximadamente US$20 mil), seu salário nos meses de licença (entre US$10 mil e US$ 50 mil), e até mesmo o emprego em si”.

Este não é o caso de mal gerenciamento, vazamento ou roubo de dados. Trata-se, na verdade, da geração de novos dados — a descoberta indireta de fatos ainda não revelados sobre as pessoas. Organizações podem prever estes insights impactantes a partir de dados sem importância, como se estivessem criando-os do nada.

Isto quer dizer que estamos enfrentando uma desvantagem quando os modelos preditivos funcionam bem demais? Sabemos que há um preço a ser pago quando os modelos predizem incorretamente, mas existe também um custo quando as predições são corretas?

Mesmo que um modelo não seja extremamente preciso por si só, pode ser considerado confiável em suas predições para um determinado grupo de grávidas. Digamos que 2% das clientes mulheres entre 19 e 40 anos de idade estejam grávidas. Se o modelo identificar clientes, digamos, com três vezes mais possibilidade do que a média, de estarem grávidas, apenas 6% das identificadas estarão realmente grávidas. Esta é a resposta aumentada de três. Mas se você olhar um grupo muito menor e focado, por exemplo, os 0,1% com maior probabilidade de gravidez, poderá obter um incremento muito maior, digamos, 46, que faria com que as mulheres deste grupo tivessem 92% de possibilidade de estarem grávidas. Neste caso, o sistema seria capaz de apresentar essas mulheres como as de gravidez mais provável.

O mesmo conceito se aplica ao predizer a orientação sexual, raça, condições de saúde, localização e intenções de sair do emprego. Mesmo que um modelo em geral não seja altamente preciso, pode com certeza, apresentar fatos com boa margem de segurança — para um grupo limitado — tais como orientação sexual, raça ou etnia. A razão disto é que geralmente existe uma pequena fatia da população sobre a qual é mais fácil fazer predições. Mesmo que estas predições possam ser feitas com segurança para apenas um grupo relativamente pequeno, ainda assim, 0,1% da população entre milhões de pessoas corresponde a mil indivíduos identificados acertadamente.

É fácil imaginar os motivos pelos quais as pessoas não gostariam que alguém soubesse destas coisas. Por um período, a partir de 2013,  a Hewlett-Packard pontuou e classificou seus mais de 3 mil funcionários de acordo com a probabilidade de saírem de seus empregos — a HP chamou isto de escala de “risco de fuga’’, e essa análise era enviada aos gestores. Se tem pretensões de sair do emprego, seu chefe é provavelmente a última pessoa que você quer que saiba disso, antes que seja oficial.

Uma outra situação: as tecnologias de reconhecimento facial podem ser uma maneira de rastrear a localização, reduzindo a liberdade fundamental de deslocamento incógnito, já que, por exemplo, câmeras de segurança posicionadas publicamente podem identificar as pessoas em lugares e horários específicos. Eu, definitivamente, não condeno o reconhecimento facial, mas sei que tanto o CEO da  Microsoft como o  da Google têm críticas em relação a isso.

Em outro exemplo, um empresa de consultoria estava simulando a perda de funcionários para o departamento de RH quando perceberam que poderiam simular também, a morte de empregados, já que esta também é uma forma de perda. O pessoal do RH respondeu: “Não queremos ver!”. Eles não queriam ter a responsabilidade de saber que funcionários corriam o risco de morrer em breve.

 Pesquisas mostram que modelos preditivos podem também descobrir outras características pessoais como, por exemplo, raça e etnia — com base apenas, por exemplo, em curtidas no Facebook. Aqui, uma preocupação é como os profissionais de marketing podem fazer uso deste tipo de predição. Como disse Latanya Sweeney,  professora de Governo e Tecnologia de Harvard, “No final das contas, a publicidade online é sobre discriminação. Você não quer que mães de bebês recém-nascidos recebam anúncios de varas de pescar e também não quer que pescadores recebam anúncios de fraldas. A pergunta é, quando a discriminação avança o sinal e, em vez de atingir consumidores atinge negativamente um grupo inteiro de pessoas?”. O fato é que um estudo conduzido por Sweeney mostrou que buscas no Google por “nomes que parecem ser de pessoas negras’’ tinham 25% mais chances de mostrar um anúncio sugerindo que aquela pessoa tinham sido presa, mesmo que o anunciante não tivesse ninguém com aquele nome em seu banco de dados de fichas criminais.

“Se você desenvolve uma tecnologia que pode classificar as pessoas por etnia, alguém vai usá-la para reprimir essa etnia’’, afirma Clare Garvie, colaboradora sênior do Centro de Privacidade e Tecnologia da Georgetown Law.

O que nos leva à China, onde o governo usa o reconhecimento facial para  identificar e rastrear os membros dos uigures, um grupo étnico  sistematicamente oprimido pelo governo. Este é o primeiro caso divulgado de um governo utilizando o aprendizado de máquina para traçar um perfil por etnia. Sinalizar esses indivíduos por grupo étnico tem como objetivo seu uso para a tomada de decisões discriminatórias – ou seja, decisões baseadas, pelo menos em parte, em uma classe protegida. Neste caso, os membros do grupo, uma vez identificados, serão tratados ou considerados diferentes, com base em sua etnia. Uma start-up chinesa, avaliada em mais de US$ 1 bilhão, afirma que seu software consegue reconhecer “grupo de pessoas de interesse”. Seu site diz: “Se originalmente um uigur mora em um bairro e, no prazo de 20 dias, outros seis uigures aparecem na região, um alarme é imediatamente enviado” para as autoridades policiais. 

Implementar um tratamento diferencial para um grupo étnico tendo como base a tecnologia preditiva faz com que o risco alcance uma nova dimensão. Jonathan Frankle, um pesquisador de aprendizagem profunda (deep learning, em inglês) do MIT,  alerta que isto se estende para além da China. “Não acredito que seja exagero tratar do tema como uma potencial ameaça à democracia. Quando um país adota um modelo neste modo extremamente autoritário, está usando dados para impor como se deve pensar, além de impor regras de um jeito muito incisivo… Desta maneira, esta crise demanda urgência e estamos aqui, andando por ela como sonâmbulos”.

Torna-se um verdadeiro desafio definir quais objetivos a serem alcançados através do aprendizado de máquina são antiéticos, sem mencionar os que deveriam ser regulamentados, se for o caso. Mas no mínimo, é importante estarmos atentos para entender quando o aprendizado por máquina serve para fortalecer práticas antiéticas preexistentes, e também quando é usado para gerar dados que precisam ser manuseados com atenção.


Eric Siegel, Ph.D., é um consultor líder e ex-professor da Columbia University, que transforma o estudo do aprendizado de máquina em algo compreensível e apaixonante. Siegel é fundador da Predictive Analytics World,  uma empresa fundada há bastante tempo, e da convenção Deep Learning World, além de ser instrutor do curso de especialização da Coursera, Machine Learning for Everyone. Siegel é um renomado palestrante, contratado para fazer mais de 100 discursos em abertura de eventos, e editor executivo da The Machine Learning Times. É autor do best-seller “Análise preditiva: o poder de predizer quem vai clicar, comprar, mentir ou morrer”.

Compartilhe nas redes sociais!

replica rolex