Tecnologia

O que acontece quando a IA é usada para dar notas?

Theodoros Evgeniou, David R. Hardoon e Anton Ovchinnikov
8 de janeiro de 2021

Como você se sentiria se um algoritmo determinasse a faculdade onde seu filho iria estudar?

Leia também:

Liderando na recuperação pós-Covid

Como reimaginar a segunda metade de sua carreira

Este ano, a Covid-19 manteve em isolamento social milhões de alunos do último ano do ensino médio, e governos ao redor do globo cancelaram exames de avaliação final, forçando conselhos de examinadores em toda parte a considerar outras maneiras de atribuir as notas finais, responsáveis por determinar o futuro dos formandos de 2020. Um desses conselhos, a International Baccalaureate Organization (IBO), optou por empregar a inteligência artificial (IA) para ajudar a definir as pontuações gerais para graduandos do ensino médio com base no histórico escolar dos alunos e outros dados cumulativos (Usamos o termo IA de forma mais abrangente para nos referirmos a um programa de computador que usa dados para executar uma tarefa normalmente realizada por pessoas, nesse caso, o processamento de notas escolares.).

A experiência não foi um sucesso, e milhares de alunos e pais descontentes lançaram uma feroz campanha de protesto. O que deu errado e o que a experiência nos diz sobre os desafios que surgem com as soluções de IA?

O que é o International Baccalaureate?

O IB é um rigoroso e prestigiado programa de formação e certificação de ensino médio ministrado por algumas das melhores escolas do mundo. Ele abre portas das principais universidades ao redor do globo para estudantes talentosos e aplicados em mais de 150 países.

Em um ano normal, as notas finais são determinadas por avaliações regulares produzidas pelos alunos e um exame final aplicado e corrigido diretamente pela IBO. As avaliações regulares correspondem a cerca de 20% a 30% da nota final geral e o exame, ao restante. Antes do exame, os professores fornecem notas “previstas”, o que permite que as universidades ofereçam vagas com a condição de que as notas finais dos candidatos atendam às previsões. A IBO também oferece uma classificação independente de amostras das avaliações regulares de cada aluno, a fim de desencorajar o aumento excessivo das notas pelas escolas.

O processo é geralmente considerado um protocolo de avaliação rigoroso e conceituado. A IBO coletou uma quantidade substancial de dados sobre cada disciplina e escola – centenas de milhares de pontos de dados, em alguns casos remontando a mais de 50 anos. Um ponto importante a salientar é que a diferença entre as notas previstas e finais tem sido pequena. Nas principais escolas IB, mais de 90% das notas foram iguais à previsão e mais de 95% das pontuações totais ficaram um ponto dentro do previsto (as pontuações totais são definidas em uma escala de um a 45).

E, então, veio a Covid-19.

No primeiro semestre de 2020, a IBO teve de decidir se permitiria que os exames prosseguissem ou iria cancelá-los e pensar em outra forma atribuir notas. Manter os exames colocaria em risco a segurança de alunos e professores, e poderia criar problemas de isonomia – por exemplo, caso alunos de alguns países pudessem fazer os exames em casa, enquanto os de outros locais tivessem de fazer as provas na escola.

O cancelamento dos exames levantou a questão de como atribuir notas, e foi então que a IBO recorreu à IA. Usando sua profusão de dados históricos sobre as avaliações prévias dos alunos e as notas previstas, bem como os dados sobre a nota real obtida em exames de anos anteriores, a IBO decidiu construir um modelo para calcular uma pontuação geral para cada aluno – em certo sentido, tentando prever a nota que os formandos de 2020 teriam obtido nos exames. A criação desse modelo foi de responsabilidade de uma empresa terceirizada, cujo nome não foi divulgado até o momento da publicação deste artigo.

Uma crise foi desencadeada quando os resultados foram divulgados no início de julho de 2020. Dezenas de milhares de alunos em todo o mundo receberam notas que destoavam enormemente dos resultados previstos, e de maneira inexplicável. Desde então, cerca de 24 mil, ou mais de 15% de todos os formandos IB de 2020, assinaram uma petição. As páginas da IBO nas redes sociais foram inundadas com comentários furiosos. Vários governos também iniciaram investigações formais e vários processos estão em preparação, alguns por abuso de dados de acordo com o Regulamento Geral sobre a Proteção de Dados (GPDR) da União Europeia. Além do mais, escolas, alunos e familiares envolvidos em outros programas de ensino médio que também adotaram soluções de IA vêm levantando questões muito semelhantes, principalmente no Reino Unido, onde os resultados dos exames de A-Level (comparável ao 3º ano do ensino médio) foram divulgados em 13 de agosto de 2020.

Pouco espaço para recursos

À medida que crescia a indignação, uma questão crucial e muito prática foi levantada de forma consistente por pais e alunos frustrados: como eles poderiam recorrer das notas?

Em anos normais, o processo de apelação era bem definido e consistia em vários níveis, desde a remarcação individual de um exame até a revisão das notas das avaliações por matéria em uma determinada escola. O primeiro significava dar uma outra olhada no trabalho do aluno – um primeiro passo natural, considerando que as notas eram baseadas nessas avaliações. O último se referia a um ajuste que a IBO pode aplicar às notas das avaliações de uma escola, caso uma amostra de trabalho avaliada independentemente pela IBO produza notas substancialmente diferentes, em média, daquelas atribuídas pela escola. O processo de recurso era bem claro e produzia resultados consistentes, mas não era utilizado com frequência, principalmente porque, conforme observado, houve poucas surpresas quando da divulgação das notas finais.

Este ano, as escolas IB inicialmente trataram os recursos como pedidos de reavaliação dos trabalhos dos alunos. Mas isso representa um desafio fundamental: os trabalhos avaliados não foram contestados, mas a avaliação da IA foi questionada. A IA não corrigia, de fato, nenhum trabalho; ela apenas produzia notas finais com base nos dados com que era abastecida, que incluíam tanto os trabalhos corrigidos por professores quanto as notas previstas. Como os detalhes do programa não são divulgados, só se tem acesso aos resultados, muitos dos quais profundamente anômalos, com notas finais, em alguns casos, bem abaixo das notas das avaliações dadas pelos professores dos alunos em questão. Como era de se esperar, a postura da IBO em relação às apelações não teve sucesso, pois não está de forma alguma alinhada com a maneira como a IA gerou as notas.

O que podemos aprender?

A principal lição a tirar dessa experiência é que, qualquer organização que decida usar a inteligência artificial para produzir um resultado tão crucial e delicado como as notas de 12 anos de estudo de alunos do ensino médio precisa ter muita clareza sobre como os resultados são produzidos e como é possível recorrer a eles para o caso de gerarem consequências anômalas ou inesperadas. Para um observador externo, fica a impressão de que a IBO pode ter simplesmente plugado a IA ao sistema do IB para substituir os exames e, então, supôs que o resto do sistema – em particular, o processo de apelação – poderia funcionar como antes.

Assim, que tipo de processo de recurso a IBO deveria ter desenvolvido? Em primeiro lugar, o processo geral de conceder notas e, mais importante, apelar da decisão deveria ser fácil de explicar, para que todos entendessem o que ocorre em cada etapa. Observe que não se trata de explicar a “caixa preta” da IA, como os reguladores atuais fazem quando argumentam sobre a necessidade de uma “IA explicável”. Isso seria quase impossível em muitos casos, pois entender toda a programação envolvida em uma IA geralmente requer um alto nível de sofisticação técnica. Trata-se, na verdade, de garantir que as pessoas entendam quais informações são utilizadas na concessão de notas e quais são as etapas do próprio processo de apelação. Portanto, o que a IBO poderia ter feito de diferente era oferecer aos recorrentes o direito a uma reavaliação, feita por humanos, de notas anômalas, especificar em quais dados de entrada o comitê de recursos se concentraria ao reanalisar o caso e explicar como o problema seria corrigido.

E essa correção de curso dependeria de o problema ser específico do aluno, da escola ou da disciplina; o recurso de um aluno poderia afetar outros alunos, dependendo de quais componentes da IA o recurso dissesse respeito.

Se, por exemplo, um problema com a nota de um único aluno parecesse ser motivado pelos dados no nível da escola – se determinado número de alunos de uma mesma escola teve notas finais que diferiam significativamente das notas previstas – então o processo de recurso se concentraria nas notas de todos os alunos dessa escola. Se necessário, o próprio algoritmo da IA seria ajustado para a escola em questão, sem afetar outras, garantindo que as novas notas concedidas pela IA fossem consistentes em todas as escolas, permanecendo as mesmas para todas, exceto para uma instituição. Em contrapartida, se o problema estiver ligado a fatores específicos do aluno, a análise se concentraria em identificar por que a IA produziu um resultado anômalo para esse aluno e, se necessário, rever a nota atribuída a ele e a qualquer outro aluno cujas notas tenham sido afetadas de forma análoga.

É claro que muito disso se aplicaria a qualquer processo de atribuição de nota – a anomalia de um aluno poderia indicar uma falha mais sistemática em qualquer processo de avaliação, com emprego ou não de inteligência artificial. Mas a forma como o processo de recurso é criado deve refletir as diferentes maneiras pelas quais humanos e máquinas tomam decisões e o design específico da IA utilizada, além de como as decisões podem ser corrigidas.

Por exemplo, como a IA atribui notas com base em seu modelo de relações entre vários dados de entrada, não deveria haver a necessidade de avaliar diretamente o trabalho real dos alunos em questão, e as correções poderiam ser aplicadas a todos os alunos afetados (aqueles com características similares quanto aos dados de entrada) de maneira conjunta. Na verdade, entrar com um recurso contra uma nota atribuída por IA pode ser um processo mais fácil do que contestar uma nota atribuída em um exame tradicional.

Além do mais, com um sistema de IA, um processo de apelação nos moldes descritos permitiria a melhoria contínua da própria IA. Se a IBO tivesse implementado esse tipo de sistema, os resultados dos recursos teriam produzido dados de feedback capazes de aprimorar o modelo para usos futuros – caso, digamos, os exames fossem novamente cancelados no próximo ano.

***

A experiência da IBO claramente traz lições quanto à implantação de IA em diversos contextos – desde a aprovação de crédito, passando pelas ferramentas de busca de emprego ao seu uso pelas polícias. As decisões em todos esses quadros podem, como no caso do IB, ter consequências capazes de transformar a vida das pessoas envolvidas. É inevitável que ocorram questionamentos sobre os resultados, dados os interesses em jogo. Incluir a inteligência artificial em processos decisórios sem a criação meticulosa de um processo de recurso, e vincular esse processo de recurso ao próprio design do algoritmo, provavelmente não apenas poderá gerar novas crises, mas potencialmente causar a rejeição de soluções com IA integrada como um todo. E isso nos priva de todo o potencial da inteligência artificial, quando combinada com humanos, de aprimorar substancialmente a qualidade da tomada de decisões.

Comunicado: Um dos autores deste artigo é pai de um aluno que está concluindo o programa do IB este ano.


Se o nosso conteúdo lhe ajuda a enfrentar esses desafios, considere ser um assinante da HBR Brasil. A assinatura é a melhor forma de apoiar a criação desses recursos.


Theodoros Evgeniou é professor de ciências da decisão e gestão de tecnologia no INSEAD.


David R. Hardoon é consultor sênior de dados e inteligência artificial do UnionBank Philippines e ex-diretor de dados da Autoridade Monetária de Cingapura. Ele integra o corpo docente visitante da Singapore Management University, da National University of Singapore e da University College London.


Anton Ovchinnikov é professor emérito e catedrático Scotiabank de análise do cliente na Smith School of Business, Queen’s University, Canadá e, também, professor visitante no INSEAD.

Compartilhe nas redes sociais!

replica rolex