Tecnologia

Quando o aprendizado de máquina sai dos trilhos

Boris Babic, I. Glenn Cohen, Theodoros Evgeniou, e Sara Gerke
8 de janeiro de 2021

Um guia para gerenciar os riscos.

Que acontece quando o aprendizado de máquina — programas de computador que absorvem novas informações e mudam a forma como se tomam decisões — leva a contratações duvidosas, empréstimos tendenciosos, perdas de investimentos ou acidentes de carro? As empresas devem permitir que seus produtos e serviços inteligentes evoluam de forma autônoma ou devem “bloquear” seus algoritmos e atualizá-los periodicamente? Se as empresas escolherem a segunda opção, quando e com que frequência haverá tais atualizações? E como devem avaliar e mitigar os riscos destas e de outras escolhas?

No mundo dos negócios, no qual a inteligência artificial baseada no aprendizado de máquina está cada vez mais presente nos produtos, serviços e processos, os executivos e conselhos de administração devem estar preparados para responder a essas perguntas. Neste artigo, baseado em nosso trabalho com legislação, ética, regulamentação e aprendizado de máquina, expomos conceitos-chave para compreender e gerenciar o possível lado negativo dessa tecnologia avançada.

O QUE TORNA ARRISCADO O APRENDIZADO DE MÁQUINA
A grande diferença entre o aprendizado de máquina e as tecnologias digitais que o precederam é a capacidade de tomar decisões cada vez mais complexas de forma independente — escolher os produtos financeiros a comercializar, definir a resposta dos veículos aos obstáculos e verificar se o paciente tem uma doença — e adaptar-se continuamente a novos dados. Mas os algoritmos nem sempre funcionam perfeitamente, nem sempre fazem escolhas éticas ou precisas. E por três motivos.

Um deles é que os algoritmos geralmente se apoiam na probabilidade de alguém deixar de pagar um empréstimo ou ter uma doença. Como eles fazem muitas previsões, é provável que algumas estejam erradas, já que existe sempre uma chance de erro. A probabilidade de erro depende de muitos fatores, como a quantidade e a qualidade dos dados usados para treinar os algoritmos, o tipo específico de método de aprendizado de máquina escolhido (por exemplo, aprendizado profundo, que usa modelos matemáticos complexos, versus árvores de classificação que dependem de regras de decisão) e a opção ou não pelo sistema de algoritmos explicáveis (ou seja, os seres humanos conseguem explicar como os algoritmos chegaram a determinada decisão), o que talvez os impeça de maximizar a precisão.

Em segundo lugar, o ambiente no qual o aprendizado de máquina opera pode mudar ou ser diferente do que aquele para o qual os algoritmos foram desenvolvidos. Embora isso possa acontecer de várias maneiras, duas das mais frequentes são o desvio de conceito e a mudança de covariável.

No primeiro caso, a relação entre as entradas usadas pelo sistema e as saídas não é estável ao longo do tempo ou pode ser mal especificada. Considere um algoritmo de aprendizado de máquina em negociação de ações. Se tiver sido treinado usando apenas dados de um período de baixa volatilidade do mercado e alto crescimento econômico, ele talvez não tenha bom desempenho quando a economia entrar em recessão ou passar por turbulência — digamos, durante a pandemia de covid-19. À medida que mudar o mercado, possivelmente mudará também a relação entre entradas e saídas — por exemplo, entre o grau de alavancagem da empresa e o retorno de suas ações. O mesmo tipo de desalinhamento pode ocorrer com modelos de pontuação de crédito em diferentes pontos do ciclo de negócio.

Vejamos um caso de desvio de conceito na medicina em sistemas de diagnóstico baseados em aprendizado de máquina. Em detecção de câncer de pele, por exemplo, se imagens da pele do paciente são usadas como entradas e a relação entre, digamos, a cor da pele (variável conforme a raça ou o grau de exposição ao sol) e a decisão do diagnóstico não foi capturada de forma adequada, então houve falha do sistema em estabelecer o diagnóstico correto. Muitas vezes, essas informações não estão sequer disponíveis nos registros eletrônicos de saúde usados para treinar o modelo de aprendizado de máquina.

Mudanças de covariável ocorrem quando os dados fornecidos a um algoritmo durante o uso diferem dos dados que o treinaram. Isso pode acontecer mesmo se os padrões que o algoritmo aprendeu forem estáveis e não houver variação de conceito. Por exemplo, uma empresa de dispositivos médicos pode desenvolver um sistema baseado em aprendizado de máquina usando dados de grandes hospitais urbanos.

Mas uma vez que o dispositivo está fora do mercado, os dados fornecidos ao sistema pelos prestadores de assistência médica em áreas rurais podem ser diferentes dos dados fornecidos durante o desenvolvimento. Os hospitais urbanos podem ter maior concentração de pacientes de certos grupos sociodemográficos com condições médicas subjacentes que geralmente não são encontradas em hospitais rurais. Essas disparidades talvez só sejam descobertas se o dispositivo comete mais erros quando está no mercado do que durante o teste. Dada a diversidade e ritmo das mudanças dos mercados, hoje é cada vez mais difícil prever tendências no ambiente no qual os sistemas operam, e nenhuma quantidade de dados consegue capturar todas as nuances do mundo real.

O terceiro motivo pelo qual o aprendizado de máquina pode tomar decisões imprecisas tem a ver com a complexidade dos sistemas gerais nos quais está incorporado. Considere um dispositivo usado para diagnosticar uma doença com base nas imagens fornecidas pelos médicos, como o IDx-DR — o primeiro dispositivo médico autônomo baseado em aprendizado de máquina autorizado pela US Food and Drug Administration —, que identifica doenças oculares como retinopatia diabética e edema macular. A qualidade de qualquer diagnóstico depende da clareza das imagens fornecidas, do algoritmo específico usado pelo dispositivo, dos dados com os quais o algoritmo foi treinado, do fato de o médico que inseriu as imagens ter recebido instruções adequadas e assim por diante. Com tantos parâmetros, é difícil avaliar se tal dispositivo cometeu um erro e por qual motivo.

Mas decisões imprecisas não são os únicos riscos do aprendizado de máquina. Vejamos agora duas outras categorias: risco de agência e risco moral.

RISCO DE AGÊNCIA
As imperfeições do aprendizado de máquina levantam outro desafio importante: os riscos decorrentes daquilo que não está sob o controle de empresa ou usuário específico.

Em condições normais é possível recorrer a evidências confiáveis para reconstruir as circunstâncias que causaram determinado acidente. Neste caso, os executivos podem ao menos obter estimativas úteis dos encargos legais. Mas como o aprendizado de máquina costuma ser incorporado a sistemas complexos, nem sempre ficará claro o que causou a falha, ou que parte envolvida (o desenvolvedor do algoritmo, o implantador do sistema ou um parceiro) foi responsável pelo erro e se houve problema com o algoritmo — que dados lhe foram fornecidos pelo usuário? Que dados foram usados para treiná-lo? Que dados vieram de fornecedores externos? A mudança de ambiente e a natureza probabilística do aprendizado de máquina dificultam sobremaneira a atribuição de responsabilidades. Na verdade, acidentes ou decisões ilegais ocorrem mesmo que não exista negligência da parte de ninguém — pois sempre existe a possibilidade de uma decisão imprecisa.

Os executivos precisam saber quando suas empresas deverão ser responsabilizadas de acordo com a legislação atual, que pode por sua vez sofrer alterações. Vejamos o contexto médico. Historicamente, os tribunais consideram os médicos como os tomadores finais de decisão e, portanto, hesitam em responsabilizar fabricantes de softwares médicos. No entanto, isso pode mudar à medida que aumentar o número de sistemas autônomos que fazem diagnósticos e recomendações sem o envolvimento (ou com envolvimento muito menor) dos clínicos. Que vai acontecer, por exemplo, se um sistema de aprendizado de máquina recomendar tratamento fora de padrão a um paciente (como uma dosagem de medicamento muito maior do que o habitual) e a regulamentação muda de tal forma que o médico só seria responsabilizado por qualquer dano se não seguisse a recomendação do sistema? Tais mudanças regulatórias podem transferir responsabilidades e riscos: dos médicos para os desenvolvedores de dispositivos médicos habilitados por aprendizado de máquina; para os provedores de dados envolvidos no desenvolvimento de algoritmos; ou para as empresas envolvidas na instalação de algoritmos.

RISCO MORAL
Produtos e serviços que tomam decisões de forma autônoma terão também de resolver dilemas éticos — um requisito que implica riscos adicionais, desafios regulatórios e de desenvolvimento de produtos. Os pesquisadores começaram a pensar nesses desafios como projeto responsável de algoritmo. Isso inclui o problema da automatização do raciocínio moral. A Tesla, por exemplo, ao programar seus carros, deveria ter no horizonte questões utilitaristas de custo e benefício, ou filosóficas, isto é, deveria dar primazia a certos valores — inegociáveis — independentemente dos benefícios? Mesmo que a resposta seja a utilitarista, a quantificação é extremamente difícil: os carros devem ser programados para dar prioridade à vida de três idosos em detrimento da vida de uma pessoa de meia-idade? Como as empresas equilibrariam privacidade, justiça, precisão e segurança? É possível evitar a imposição de risco a esses valores?

Riscos morais incluem vieses relacionados a grupos demográficos. Por exemplo, algoritmos de reconhecimento facial têm dificuldade de identificar pessoas negras; a precisão dos sistemas de classificação de lesões cutâneas depende do fator raça; instrumentos de previsão de recidiva classificam negros e hispânicos com pontuações muito altas, e sistemas de pontuação de crédito os classificam com pontuações muito baixas. De alguma forma, os sistemas de aprendizado de máquina podem ser considerados injustos com determinados grupos em diversas aplicações comerciais.

O problema é agravado pelas múltiplas formas — e, talvez, mutuamente incompatíveis — de definir justiça e codificá-la por algoritmos. O algoritmo de empréstimo pode ser calibrado — o que significa que suas decisões são independentes da identidade do grupo depois que se controla o nível de risco —, mas ainda assim negar empréstimo de forma desproporcional a minorias com crédito. Como resultado, qualquer empresa pode acabar em um beco sem saída. Se usar algoritmos para decidir quem recebe empréstimo, a instituição financeira pode ser acusada de discriminar alguns grupos. Culturas diferentes também podem aceitar diferentes definições e compensações éticas — um problema para produtos de mercado global. Um documento oficial da Comissão Europeia de fevereiro de 2020 sobre IA apela que se desenvolvam programas de IA de “valores europeus”, mas essa IA poderá ser exportada com facilidade para regiões com valores diferentes?

Finalmente, todos esses problemas podem ser causados pela instabilidade do modelo. Eis uma situação em que entradas similares levam a decisões diferentes. Algoritmos instáveis são propensos a tratar pessoas semelhantes de forma diferente — e possivelmente injusta.

É claro que essas considerações não significam que devemos evitar o aprendizado de máquina por completo. Em vez disso, os executivos precisam abraçar as oportunidades que ele cria e, ao mesmo tempo, abordar os riscos de maneira adequada.

TRAVAR OU NÃO TRAVAR?
Se os líderes decidirem empregar o aprendizado de máquina, a próxima pergunta-chave é: a empresa deve permitir que ele evolua de forma contínua ou, em vez disso, apresentar de tempos em tempos versões testadas e bloqueadas? A última opção mitigaria os riscos que acabamos de descrever?

Este problema é conhecido do mundo médico. Até agora, a FDA tem aprovado apenas “software como dispositivo médico” (software que pode realizar suas funções médicas sem hardware) cujos algoritmos estão bloqueados. O motivo: a agência quer evitar o uso de dispositivos cujos procedimentos de diagnóstico e tratamento mudam de formas que ela não entende. Mas, como a FDA e outros reguladores estão percebendo, bloquear os algoritmos pode ser igualmente arriscado porque não elimina os seguintes perigos:

Decisões imprecisas. O bloqueio não altera o fato de que os algoritmos de aprendizado de máquina normalmente baseiam as decisões em probabilidades estimadas. Além disso, embora, teoricamente, a entrada de mais dados geralmente leve a melhor desempenho, na prática isso nem sempre acontece, e a quantidade de melhorias pode variar; melhorias em algoritmos desbloqueados podem ser maiores ou menores para diferentes sistemas e com diferentes volumes de dados. Embora seja difícil entender como a precisão (ou imprecisão) das decisões pode mudar quando um algoritmo é desbloqueado, é importante tentar.

Mudanças ambientais. Mudanças no ambiente no qual o sistema toma decisões e a forma como são tomadas têm alta relevância. Por exemplo, o piloto automático dos carros opera em ambientes constantemente alterados pelo comportamento do motorista. Os sistemas de preços, pontuação de crédito e negociação podem passar por mudanças de mercado sempre que o ciclo de negócios entra em nova fase. O desafio é garantir que o sistema de aprendizado de máquina e o ambiente evoluam de modo sincrônico para permitir que o sistema tome decisões apropriadas.

Riscos de agência. Bloquear um algoritmo não elimina a complexidade do sistema no qual ele está embutido. Por exemplo, erros causados por dados de baixa qualidade oriundos de fornecedores terceirizados para treinar o algoritmo ou por diferenças nas habilidades entre os usuários ainda são possíveis de ocorrer. E pode ser difícil atribuir responsabilidades a provedores de dados, desenvolvedores de algoritmo, implantadores e usuários.

Riscos morais. Todo sistema bloqueado pode guardar imperfeições ou vieses desconhecidos de seus criadores. Ao analisar mamografias para detectar sinais de câncer de mama, o algoritmo bloqueado seria incapaz de aprender com as novas subpopulações nas quais é usado. Como a densidade média da mama muda de acordo com a raça, isso poderá levar a diagnósticos errados se o sistema fizer a triagem de pessoas de um grupo demográfico sub-representado nos dados de treinamento. Da mesma forma, o algoritmo de pontuação de crédito treinado em um subconjunto socioeconomicamente desfavorecido discriminará ilegalmente certos tomadores de empréstimo por causa de raça ou classe social. Queremos que os algoritmos corrijam esses problemas o mais rápido possível: que se atualizem toda vez que forem alimentados por novos dados de subpopulações mal representadas ou não identificadas. Por outro lado, existe a possibilidade de, com o tempo, dispositivos cujo aprendizado de máquina tenha sido bloqueado prejudicarem um ou mais grupos se sua transformação for baseada, na maior parte, em dados de um grupo diferente.

KIT DE FERRAMENTAS PARA EXECUTIVOS
Então, como os executivos devem gerenciar os riscos existentes e os emergentes do aprendizado de máquina? Desenvolvendo processos apropriados, capacitando a gestão e o conselho de administração e fazendo as perguntas certas.

Trate o aprendizado de máquina como se ele se fosse humano. Os executivos precisam pensar no aprendizado de máquina como entidade viva, não como tecnologia inanimada. Assim como os testes cognitivos não revelam o futuro desempenho do funcionário ao integrar uma equipe, tampouco os testes de laboratório fazem esse tipo de previsão no que diz respeito aos sistemas de aprendizado de máquina no mundo real. Executivos devem exigir análise completa do modo como funcionários, clientes e outros usuários adotarão esses sistemas e reagirão às decisões destes. Mesmo sem a exigência dos reguladores, seria uma boa ideia, antes do lançamento de produtos baseados em aprendizado de máquina, submetê-los a testes controlados e randomizados para garantir segurança, eficácia e justiça. Igualmente útil seria analisar as decisões no mercado real, onde existem usuários de todos os tipos, para ver se a qualidade das decisões difere. Além disso, as empresas devem comparar a qualidade das decisões tomadas com e sem o algoritmo numa mesma situação. Antes de lançar produtos em escala, especialmente se não tiverem sido submetidos a testes randomizados, as empresas devem cogitar testá-los em mercados limitados para ter uma ideia melhor de sua precisão e desempenho quando vários fatores estão em jogo — por exemplo, quando os usuários não têm a mesma expertise, mudam os dados das fontes ou o próprio ambiente. Falhas no mundo real indicam a necessidade de melhorar ou retirar o algoritmo.

Pense como regulador e reflita antes de tomar iniciativas. As empresas devem desenvolver planos para certificar serviços de aprendizado de máquina antes de introduzi-los no mercado. As práticas dos reguladores oferecem um bom guia. Em 2019, por exemplo, a FDA publicou um artigo preliminar que propôs uma nova estrutura regulatória para modificações de software de dispositivos médicos baseados em aprendizado de máquina. A abordagem propõe completa avaliação da empresa — ou equipe — para permitir aprimoramento contínuo do software. Isso garantiria a segurança dos pacientes e seria um sinal eloquente de excelência organizacional. Se as empresas não adotassem tais processos de certificação, poderiam ser responsabilizadas legalmente por não levarem a efeito os devidos procedimentos.

Muitas startups fornecem tais certificações, isto é, garantem que produtos e processos não sofrem vieses, não se escondem em estereótipos, não cometem injustiças nem caem em outras armadilhas do gênero. O Instituto de Engenheiros Eletrotécnicos e Eletrônicos (IEEE), organização americana sem fins lucrativos, e a Organização Internacional de Normalização, popularmente conhecida como ISO, fundada no Reino Unido e com sede em Genebra, estão desenvolvendo padrões de certificação, e empresas como a Google oferecem serviços de ética de IA que examinam múltiplas dimensões, como os dados usados para treinar sistemas, seu desempenho e seu impacto no bem-estar. Talvez as empresas precisem desenvolver abordagens próprias semelhantes.

Monitore continuamente. Diante desse cenário, é de esperar que as empresas reconheçam que sua tecnologia já não funciona como deveria. Ou já não opera dentro dos limites apropriados. Consequentemente, precisam estabelecer estratégias de verificação. Organizações de outros ramos de atividade hão de servir de modelo. A Sentinel Initiative da FDA usa fontes de dados díspares, como registros eletrônicos de saúde, para monitorar a segurança de produtos médicos, e tem autoridade para forçar sua retirada do mercado caso não passem no teste. Em muitos aspectos, os programas de monitoramento das empresas podem assemelhar-se às ferramentas e processos de manutenção preventiva adotados por empresas de manufatura, energia ou segurança cibernética. Por exemplo, os chamados ataques adversários à IA, como os usados rotineiramente para testar a força das defesas dos sistemas de TI, são alternativas possíveis de ser exploradas.

Faça as perguntas certas. Executivos e reguladores precisam aprofundar-se nos seguintes aspectos:

→ Precisão e competitividade. Quanto o desempenho do sistema baseado em aprendizado de máquina deverá melhorar com o volume de novos dados se não bloquearmos o algoritmo? Que significará tal melhoria do ponto de vista comercial? Até que ponto os consumidores compreenderão as vantagens e desvantagens de sistemas bloqueados versus desbloqueados?

→ Vieses. Que dados foram usados para treinar o algoritmo? Quão representativos da população na qual o algoritmo vai operar são esses dados? Se permitirmos que um algoritmo desbloqueado aprenda com o tempo, será possível prever se ele produzirá resultados menos tendenciosos do que um algoritmo bloqueado? Os erros do algoritmo afetam minorias ou outros grupos em particular? O monitoramento contínuo pode estabelecer guardrails que impeçam o algoritmo de tornar-se discriminatório?

→ O meio ambiente. De que forma o ambiente em que o serviço é usado mudará com o tempo? Existem condições nas quais o aprendizado de máquina não deve ter permissão para tomar decisões? Se existem, quais são elas? Como podemos garantir que o serviço evolua de forma adequada considerando que o próprio ambiente pode estar mudando? Quando devemos retirar nosso serviço do mercado porque a diferença entre o ambiente e seu comportamento se tornou grande demais? Quais são os limites do ambiente dentro dos quais nosso serviço pode se adaptar e operar? Quão robustos e seguros são nossos sistemas de aprendizado de máquina ao longo de seu ciclo de vida?

→ Risco de agência. De quais componentes de terceiros, incluindo fontes de dados, depende o desempenho de nosso algoritmo de aprendizado de máquina? Quanto isso varia quando eles são usados por pessoas mais habilitadas ou menos? Que produtos ou serviços de outras empresas usam nossos dados ou algoritmos de aprendizado de máquina expondo-nos a possíveis responsabilidades legais? Devemos permitir que outras empresas usem algoritmos de aprendizado de máquina que desenvolvemos?

Desenvolva princípios que tratem dos riscos do seu negócio. As empresas precisarão estabelecer suas próprias diretrizes, inclusive as de ética, para gerenciar esses novos riscos — algo que empresas como Google e Microsoft já fizeram. Para serem úteis, essas diretrizes precisam ser bastante específicas (por exemplo, que definições de justiça serão adotadas) e ser adaptadas aos riscos em questão. Se você usa o aprendizado de máquina para tomar decisões de contratação, que seu modelo seja simples, justo e transparente. Se você o usa para prever preços de contratos de commodities, preocupe-se menos com valores e mais com a perda financeira potencial máxima permitida para qualquer decisão tomada pelo aprendizado de máquina.

Felizmente, a jornada para desenvolver e estabelecer princípios não precisa ser solitária. Os executivos têm muito a aprender com os esforços plurianuais da Organização para a Cooperação e Desenvolvimento Econômico (OCDE), que desenvolveu os primeiros princípios de IA intergovernamental (adotados em 2019 por muitos países). Os princípios da OCDE promovem IA inovadora, confiável, responsavelmente transparente e observante dos direitos humanos, do Estado de direito, da diversidade e dos valores democráticos. Tais princípios devem impulsionar o crescimento inclusivo, o desenvolvimento sustentável e o bem-estar. Eles enfatizam a robustez, a proteção, a segurança e a gestão contínua de risco dos sistemas de IA ao longo de seu ciclo de vida. O Observatório de Políticas de IA, lançado recentemente pela OCDE, fornece outros recursos úteis, como a compilação abrangente de políticas de IA em todo o mundo.

O aprendizado de máquina tem enorme potencial. Mas à medida que essa tecnologia, junto com outras formas de IA, é incorporada ao nosso tecido econômico e social, os riscos que ela representa aumentarão. Para as empresas, mitigá-los pode ser tão importante quanto — e possivelmente mais crítico — gerenciar a adoção do aprendizado de máquina por si só. Se as empresas não estabelecerem práticas apropriadas para lidar com esses novos riscos, é provável que encontrem problemas para ganhar força no mercado.


BORIS BABIC é professor assistente de ciências da decisão no Insead.


I. GLENN COHEN é vice-reitor, professor de direito e diretor do Petrie-Flom Center for Health Law Policy, Biotechnology, and Bioethics da Harvard Law School.


THEODOROS EVGENIOU é professor de ciências da decisão e gestão de tecnologia no Insead.


SARA GERKE é pesquisadora de medicina, inteligência artificial e direito no Petrie-Flom Center.

Compartilhe nas redes sociais!

replica rolex