Tecnologia

Como vencer com o machine learning

Ajay Agrawal, Joshua Gans e Avi Goldfarb
9 de outubro de 2020

A última década trouxe vantagens incríveis com esta dimensão empolgante da inteligência artificial (IA) — o aprendizado de máquina. A técnica de transformar a entrada de dados em previsões permitiu que gigantes da tecnologia como Amazon, Apple, Facebook e Google aprimorassem sobremaneira seus produtos. Também estimulou startups a lançar novos produtos e plataformas, algumas vezes chegando até a competir com as grandes empresas de tecnologia.

Veja o caso da BenchSci, sediada em Toronto. Ela busca acelerar o processo de desenvolvimento de remédios. Seu objetivo é ajudar os cientistas a achar agulha em palheiro — com as informações mais importantes contidas nos bancos de dados internos das empresas farmacêuticas e na vasta riqueza contida nas pesquisas científicas publicadas. Os cientistas devem realizar experimentos caros que tomam muito tempo quando se trata de colocar novos medicamentos em testes clínicos. A BenchSci observou que eles poderiam conduzir menores quantidades de experimentos — e bem mais a contento — se aplicassem melhor os insights de uma grande variedade de experimentos já realizados.

Na verdade, a empresa descobriu que se houvesse uma máquina capaz de ler, classificar e produzir insights de pesquisas, os cientistas conseguiriam reduzir em metade o número de experimentos exigidos para que os medicamentos passem para a fase de testes clínicos. Especificamente, os cientistas poderiam utilizar a tecnologia para descobrir o reagente biológico certo — o que é fundamental para determinar e medir a presença de proteína. Partir do zero em vez de vasculhar artigos publicados encurta sobremaneira o tempo necessário para produzir novos candidatos a medicamentos. Isso resulta em uma potencial economia de mais de US$ 17 bilhões por ano, algo que, em um setor no qual os retornos com P&D se tornaram muito pequenos, pode transformar o mercado. Ademais, muito mais vidas seriam salvas com a rápida introdução de novos medicamentos no mercado.

O que impressiona, neste caso, é que a BenchSci, em seu setor, está fazendo algo similar ao que a Google vem fazendo na internet como um todo: usar machine learning para tornar-se líder no setor de buscas na rede. Assim como o motor de busca da Google ajuda a descobrir como consertar máquinas de lavar louça sem a necessidade de ir à biblioteca nem de gastar dinheiro com o reparo, a BenchSci ajuda cientistas a identificar um reagente adequado sem incorrer em problemas ou gastos com pesquisas e experimentos excessivos. Antes, os cientistas geralmente usavam Google e PubMed para obter informações (processo que levava dias), estudavam o material (gastando igualmente vários dias) e, por fim, comparavam e testavam três a seis reagentes antes de escolher um (ao longo de semanas). Agora, buscam na BenchSci em minutos, fazem o pedido, testam um a três reagentes e optam por um (realizando menos testes em muito menos tempo).

Muitas empresas já estão trabalhando com a IA, cientes das etapas práticas para integrá-la a suas operações e dela tirar o melhor proveito possível. Porém, à medida que aumenta a proficiência, as organizações precisam levar em consideração uma questão mais ampla: como tirar vantagem do aprendizado de máquina para desenvolver algo que os concorrentes não possam imitar com facilidade? No caso da BenchSci, seu sucesso inicial vai atrair a concorrência da Google? E, se for este o caso, como a BenchSci manterá a liderança?

Nas próximas páginas explicamos como as empresas que estão entrando em setores com produtos ou serviços que permitem o uso da IA podem criar vantagem competitiva sustentável e dificultar ainda mais a entrada no mercado dos concorrentes recém-chegados. Antecipar-se costuma ser uma grande vantagem, mas não é suficiente. As empresas que adotam tardiamente essa tecnologia nova ainda podem progredir — ou, ao menos, recuperar parte do terreno perdido — encontrando um nicho.

FAZER PREVISÕES UTILIZANDO A IA
As empresas usam o aprendizado de máquina para identificar padrões e fazer previsões — para chamar a atenção clientes ou aprimorar-lhes as operações ou produtos. Contudo, antes que se possa desenvolver uma estratégia em torno dessas previsões, é preciso compreender os inputs necessários para o processo de previsão, os desafios envolvidos e o papel desempenhado pelo feedback para permitir que o algoritmo realize previsões melhores com o passar do tempo.

No contexto de aprendizado de máquina, previsão é produção de informação pela inserção de um dado e execução de um algoritmo. Por exemplo, quando o aplicativo de navegação do celular prevê o melhor caminho entre dois pontos, ele usa dados referentes a condições de trânsito, limites de velocidade, tamanho das avenidas e outros. Um algoritmo é empregado para determinar o percurso mais rápido e o tempo da viagem.

O principal desafio em qualquer processo de previsão é que os dados de treinamento — inputs necessários para começar a obter resultados satisfatórios — têm de ser gerados (por especialistas contratados, por exemplo) ou obtidos de fontes existentes (digamos, registros de saúde). Alguns dados (informações meteorológicas e cartográficas, entre outras) são fáceis de conseguir em fontes públicas. E haverá clientes dispostos a oferecer dados pessoais se notarem que isso lhes trará benefícios. Usuários do FitBit e do Apple Watch, por exemplo, permitem que as empresas obtenham informações sobre seus exercícios, ingestão de calorias, entre outras, por meio dos equipamentos com os quais eles controlam a saúde e a forma física.

Contudo, conseguir dados de treinamentos para permitir previsões pode ser difícil se isso exige a cooperação de um grande número de pessoas que não se beneficiam diretamente com ela. Por exemplo, um aplicativo de navegação pode coletar dados sobre as condições do trânsito rastreando usuários e recebendo seus relatos. Isso permite que o aplicativo identifique lugares mais propensos a congestionamentos e alerte outros motoristas que estão indo na mesma direção. Todavia, motoristas já presos nesses congestionamentos recebem recompensa muito pequena por participar do processo e podem sentir-se incomodados com a ideia de que o aplicativo sabe onde eles estão e de que possivelmente registra seus movimentos. Se as pessoas nos congestionamentos se recusarem a compartilhar seus dados ou, ainda, desligarem seu geolocalizador, a capacidade do aplicativo de alertar usuários a respeito de problemas de trânsito ficará comprometida.

Outro desafio pode ser a necessidade de atualizar periodicamente os dados de treinamento. Nem sempre isso é problema — não será o caso se o contexto básico no qual foi feita a previsão se mantiver constante. A radiologia, por exemplo, examina a fisiologia humana, que, salvo exceções e especificidades, é comum a todas as pessoas. Assim, depois de determinado ponto, o valor marginal de um registro extra na base de treinamentos de dados é quase zero. No entanto, em outros casos, os algoritmos podem precisar de atualizações constantes de dados totalmente novos que reflitam as mudanças em seu ambiente principal. Com aplicativos de navegação, ruas ou rotatórias novas, avenidas rebatizadas e mudanças similares farão com que as previsões realizadas pelos aplicativos sejam menos precisas ao longo do tempo, a não ser que os mapas que fazem parte dos dados de treinamentos iniciais sejam atualizados.

Em muitas situações, os algoritmos podem ser melhorados continuamente por meio de feedbacks obtidos pelo mapeamento dos resultados reais dos dados de entrada utilizados para fazer as previsões. Essa ferramenta é particularmente útil em situações em que pode haver variação considerável dentro de limites claramente definidos. Por exemplo, quando, por medida de segurança, o telefone usa uma imagem de seu proprietário, para reconhecê-la inicialmente ele teve de treinar o aparelho. Porém, o rosto dele pode mudar — talvez ele esteja usando óculos, um novo corte de cabelo, ou perdido peso. Assim, a previsão de que essa pessoa é ela mesma se torna menos confiável caso o telefone se fie apenas nos dados de treinamento iniciais. Mas o que realmente acontece é que o telefone atualiza o algoritmo usando todas as imagens que o usuário lhe fornece toda vez que desbloqueia o dispositivo.

A elaboração dessas formas de ciclo de feedback está longe de ser simples em contextos dinâmicos e onde o feedback não pode ser facilmente categorizado ou produzido. Informações obtidas com feedback para o aplicativo de reconhecimento facial do smartphone, por exemplo, criam previsões melhores apenas se a única pessoa que insere os dados faciais é o dono do aparelho. Caso outras pessoas sejam suficientemente parecidas para desbloquear o telefone e continuar a usá-lo, a previsão de que o usuário é o dono do aparelho deixa de ser confiável.

Também pode ser perigosamente fácil introduzir preconceitos no aprendizado de máquina se múltiplos fatores estão em jogo. Imaginemos que um credor use um processo que permita o uso de IA para avaliar o risco de crédito de candidatos a empréstimo levando em conta seu nível de renda, histórico profissional, características demográficas e assim por diante. Se os dados de treinamento do algoritmo discriminar determinado grupo — digamos, pessoas negras —‚ o ciclo de feedback perpetuará ou até mesmo acentuará esse preconceito, e a probabilidade de candidatos negros serem rejeitados será cada vez maior. É quase impossível incorporar feedbacks de maneira segura a um algoritmo sem que os parâmetros sejam cuidadosamente definidos e as fontes sejam confiáveis e imparciais.

OBTENHA VANTAGEM COMPETITIVA NA PREVISÃO
De muitas formas, usar o aprendizado de máquina para desenvolver um negócio sustentável é bastante parecido com criar qualquer negócio sustentável em qualquer setor. É preciso ter um produto vendável, conquistar inicialmente uma posição defensável e dificultar o caminho de quem entrar no negócio depois de você. Conseguir colocar isso em prática depende das suas respostas a três perguntas:

1. Você possui dados de treinamento suficientes? No início as previsões geradas pela máquina têm de ser suficientemente boas para tornar-se viáveis comercialmente. A classificação “suficientemente boas” pode ter como base a regulamentação (por exemplo, para que a IA faça diagnósticos médicos, é preciso atender aos padrões governamentais), usabilidade (o chatbot tem de funcionar corretamente para que os usuários forneçam suas respostas a uma máquina em vez de esperarem para falar com uma pessoa na central de atendimento) ou competição (as previsões da empresa que quiser entrar no mercado de ferramentas de busca na internet terão de ser suficientemente precisas para que ela possa competir com a Google). Portanto, um obstáculo a essa entrada é a quantidade de tempo e esforço necessários para criar ou acessar dados de treinamento suficientes visando a geração de previsões boas o bastante.

Esse obstáculo pode ser maior. Veja o caso da radiologia, no qual uma máquina de previsões precisa ser perceptivelmente melhor do que seres humanos altamente capacitados para que vidas humanas lhe sejam confiadas. Isso indica que a primeira empresa que desenvolver IA aplicada à radiologia (capaz de ler qualquer imagem) terá, no início, pouca concorrência, uma vez que quantidades enormes de dados serão necessárias. Porém, a vantagem inicial poderá durar pouco se o mercado estiver em crescimento acelerado, tendo em vista que, em mercados assim, a recompensa de ter acesso aos dados de treinamento provavelmente será suficientemente grande a ponto de atrair inúmeras empresas de grande porte e cheias de dinheiro.

Isso, claro, significa que as exigências de entrada de dados de treinamento estão sujeitas à economia de escala, entre outros fatores. Mercados de alto crescimento atraem investimentos e, com o tempo, isso aumenta as exigências iniciais para os próximos candidatos (e obriga todos que já fazem parte do setor a gastarem mais no desenvolvimento ou na promoção de seus produtos). Dessa forma, quanto mais dados você conseguir para treinar suas máquinas, maior o obstáculo para aqueles que estão chegando depois de você, o que nos leva à nossa segunda pergunta.

2. Qual é a rapidez dos seus ciclos de feedback? Máquinas de previsão exploram o que, tradicionalmente, tem sido a vantagem humana — aprender. Se podem incorporar dados de feedback, então podem aprender com os resultados e melhorar a qualidade da próxima previsão.
Contudo, a extensão dessa vantagem depende do tempo que se leva para obter feedback. No caso de um exame radiológico, se for preciso autópsia para avaliar se o algoritmo previu corretamente um câncer, então o feedback será lento, e embora determinada empresa possa de início ser a líder em leitura de imagens, ela estará limitada em sua capacidade de aprender e, assim, em manter a liderança. Por outro lado, se dados de feedback podem ser gerados rapidamente após a realização da previsão, então uma liderança inicial se traduzirá em vantagem competitiva prolongada, uma vez que a escala de eficiência mínima logo estará fora do alcance até mesmo das maiores empresas.

Quando a Microsoft lançou o motor de busca Bing, em 2009, a empreitada contou com todo o apoio da empresa, que investiu bilhões de dólares no projeto. Ainda assim, mais de uma década depois, a fatia de mercado do Bing continua bem menor que a da ferramenta de busca da Google, tanto em relação ao volume de buscas quanto à receita de publicidade com as buscas. Um dos motivos que dificultou o progresso do Bing foi o ciclo do feedback. Nas buscas, o tempo entre a previsão (oferecer uma página com sugestões de vários links em resposta a uma consulta) e o feedback (o usuário clicar em um dos links) é pequeno — normalmente segundos. Em outras palavras, o ciclo de feedback é rápido e poderoso.

Quando o Bing entrou no mercado, a Google já vinha utilizando uma ferramenta de busca com base na IA havia pelo menos uma década, ajudando milhões de usuários e realizando bilhões de pesquisas diariamente. Toda vez que era feita uma consulta, o Google oferecia sua previsão dos links mais relevantes e, então, o usuário selecionava o melhor entre eles, permitindo que a plataforma atualizasse seu modelo de previsão. Isso permitiu aprendizado contínuo em uma ferramenta de busca em constante expansão. Com tantos dados de treinamento baseados em uma enormidade de usuários, a ferramenta da Google pode identificar eventos e tendências novas mais rápido que o Bing. No fim, o rápido ciclo de feedback, combinado com outros fatores — o investimento contínuo da Google em funções gigantescas de processamento de dados, e os custos, reais ou previstos, para que os clientes mudassem para outra ferramenta —, mostrou que o Bing estava sempre ficando para trás. Outras ferramentas de busca que tentaram competir com a da Google e com o Bing jamais conseguiram chegar perto de se tornar ameaças.

3. Até que ponto suas previsões são boas? O sucesso de qualquer produto depende, em última instância, do que você recebe pelo que você paga. Caso sejam oferecidos aos clientes dois produtos similares pelo mesmo preço, eles vão optar pelo de melhor qualidade na sua avaliação.

Como já observamos, a qualidade da previsão geralmente é fácil de avaliar. Na radiologia, na pesquisa, em publicidade e em muitos outros contextos, as empresas podem elaborar IAs tendo como base uma métrica clara e única em relação à qualidade: precisão. Assim como em outros setores, os produtos de maior qualidade são beneficiados com as maiores demandas. Porém, produtos cuja base é a IA são diferentes, uma vez que, para a maioria dos outros produtos, qualidade custa caro, e os vendedores de produtos de qualidade inferior sobrevivem utilizando material barato ou processos de produção igualmente menos dispendiosos e cobrando preços mais baixos. Essa estratégia não é tão viável no contexto da IA. Como a IA se baseia em software, previsões de baixa qualidade são tão caras de produzir quanto as de alta qualidade, o que torna impraticável fornecer descontos. E se as melhores previsões são precificadas da mesma maneira que as piores, não há motivo para comprar as de qualidade inferior.

No caso da Google, esse talvez seja outro fator que explica por que sua liderança como ferramenta de busca pode ser inexpugnável. As previsões dos concorrentes, muitas vezes, se parecem bastante com as oferecidas pela Google. Digite a palavra “clima” no Google ou no Bing e os resultados serão muito parecidos — previsões de tempo aparecerão em primeiro lugar. Mas se você digitar um termo menos comum, podem surgir diferenças. Caso você escreva, digamos, “disrupção”, a primeira página do Bing mostrará definições de dicionário, ao passo que o Google apresentará tanto definições quanto links para artigos de pesquisa sobre inovação disruptiva. Embora o desempenho do Bing possa ser tão bom quanto o buscador da Google em algumas consultas, em outras ele é menos preciso na previsão do que os clientes procuram. E existem poucas — se é que existe alguma — categorias de busca nas quais o Bing possa ser visto como significativamente superior.

RECUPERAR TERRENO
A verdade é que, na IA, quem for pioneiro poderá criar uma vantagem competitiva com base em escalas se os ciclos de feedback forem rápidos e a qualidade dos desempenhos for evidente. Mas que significa isso para os recém-chegados ao mercado? Nas entrelinhas das três perguntas existem dicas que mostram duas maneiras possíveis de um membro tardio conquistar seu próprio espaço no mercado. Possíveis candidatos não precisam escolher uma dessas abordagens — podem adotar ambas.
Identifique e garanta fontes alternativas de dados. Em alguns mercados para ferramentas de previsão podem existir reservas de treinamentos de dados em potencial que os membros atuais ainda não tomaram para si. Voltando ao exemplo da radiologia, dezenas de milhares de médicos analisam, cada um, milhares de imagens por ano, o que significa que centenas de milhões (ou até bilhões) de novos pontos de dados estão disponíveis.

Aqueles que primeiro ingressaram no mercado terão dados de treinamento de algumas centenas de radiologistas. É claro que, uma vez que seus softwares estiverem atuando no mercado, o número de imagens e a quantidade de feedback em suas bases de dados aumentarão substancialmente, mas os bilhões de imagens anteriormente analisadas e verificadas representam uma oportunidade para que os que ficaram para trás recuperem terreno, pressupondo que sejam capazes de juntá-las e analisá-las como um todo. Se for este o caso, podem conseguir desenvolver uma IA que faça previsões suficientemente boas para entrarem no mercado e, depois disso, podem tirar proveito dos feedbacks.

Já os recém-chegados ao mercado, por sua vez, podem pensar em desenvolver IA usando dados de patologia ou de autópsia em vez de diagnósticos humanos. Essa estratégia lhes permitiria atingir as exigências iniciais de qualidade mais cedo (porque biópsias e autópsias são mais definitivas do que tomografias), embora o próximo ciclo de feedback venha a ser mais lento.

Por outro lado, em vez de tentarem achar fontes inexploradas de treinamentos de dados, os recém-chegados ao mercado podem procurar novas fontes de dados de feedback que permitam aprendizado mais rápido do que as que estão sendo usadas (a BenchSci é exemplo de empresa que obteve sucesso fazendo isso). Ao ser o primeiro com nova provisão de dados de feedback mais rápidos, no futuro os recém-chegados podem aprender com as ações e escolhas de seus usuários para aprimorar seu produto. Contudo, em mercados em que ciclos de feedback já são razoavelmente rápidos e as empresas que fazem parte do mercado há mais tempo já atuam em escala, as oportunidades para conseguir pôr em prática essas abordagens serão um tanto limitadas. E feedbacks significativamente mais rápidos provavelmente promoverão a disrupção das práticas atuais, o que significa que os recém-chegados não estariam competindo de fato com as empresas estabelecidas, mas substituindo-as.

Faça a distinção da previsão. Outra tática que pode ajudar os recém-chegados a tornar-se competitivos é redefinir o que faz uma previsão “melhor”, ainda que somente para alguns clientes. Em radiologia, por exemplo, essa estratégia pode ser possível se há uma demanda do mercado para formas diferentes de previsão. É mais provável que os pioneiros tenham treinado seus algoritmos com dados de um sistema hospitalar, de um tipo de hardware ou de um país. Ao usar dados de treinamento (e depois dados de feedback) de outro sistema ou outro país, o recém-chegado pode personalizar sua IA para esse segmento de usuário se ele for suficientemente distinto. Se, digamos, americanos urbanos e habitantes da zona rural da China tendem a ter diferentes problemas de saúde, então uma máquina de previsão construída para diagnosticar um dos dois grupos pode não ser tão precisa no diagnóstico de pessoas do outro.

Criar previsões que se fiam em dados obtidos de um tipo particular de hardware também pode oferecer uma oportunidade de mercado caso esse modelo de negócio resulte em custos mais baixos ou aumente a acessibilidade dos clientes. Muitas das IAs atuais usadas em radiologia se valem dos dados das máquinas de raios X, scanners e aparelhos de ultrassonografia e amplamente usados produzidos pela GE, Siemens e outras fabricantes consagradas. Contudo, se os algoritmos forem aplicados a dados de outros equipamentos, as previsões resultantes podem ser menos precisas. Assim, um recém-chegado pode encontrar um nicho ao oferecer um produto personalizado para aquele outro equipamento — que pode ser atraente para hospitais se o preço de compra ou de uso for mais barato ou se sua especialidade for ao encontro das necessidades de determinados clientes.

O potencial das máquinas de previsão é imenso, e não há dúvida de que os gigantes do setor de tecnologia têm vantagem inicial. Mas vale a pena lembrar que previsões são como produtos precisamente projetados, altamente adaptáveis a objetivos e contextos específicos. Quem consegue distinguir objetivos e contextos, ainda que só um pouco, cria um espaço para seu próprio produto e garante a própria salvação, contanto que saiba coletar e usar os dados — o diabo mora nos detalhes.

Contudo, o ponto principal para competir com sucesso com as grandes empresas de tecnologia em setores treinados por máquinas inteligentes está em uma pergunta que apenas o ser humano é capaz de responder: que você deseja prever? Claro que descobrir essa resposta não é fácil. É preciso amplo entendimento das dinâmicas do mercado e análise cuidadosa do valor potencial de previsões específicas e dos produtos e serviços em questão.

Portanto, talvez não surpreenda o fato de que o principal investidor do BenchSci’s Series A2 não tenha sido um dos muitos que apostam seu dinheiro em tecnologias existentes no Canadá, mas, sim, uma empresa de capital de risco focada na IA chamada Gradient Ventures — de propriedade da Google.


AJAY AGRAWAL é detentor da cátedra Geoffrey Taber de Empreendedorismo e Inovação da Rotman School of Management, University of Toronto, e fundador do Creative Destruction Lab, da Rotman.


JOSHUA GANS é detentor da cátedra Jeffrey S. Skoll de Inovação Técnica e Empreendedorismo da mesma instituição, e economista-chefe da mesma organização sem fins lucrativos.


AVI GOLDFARB é detentor da cátedra Rotman de Inteligência artificial e Assistência Médica da mesma instituição e cientista de dados da organização mencionada. Juntos escreveram Prediction machines: the simple economics of artificial intelligence (Harvard Business Review Press, 2018).

Compartilhe nas redes sociais!

replica rolex