Dados

Em quais dados da COVID-19 podemos confiar?

Satchit Balsari, Caroline Buckee e Tarun Khanna
26 de agosto de 2020

A pandemia da COVID-19 criou um tsunami de dados. Ao mesmo tempo em que países e cidades lutam para controlar a amplitude e a escalada do problema, as empresas de tecnologia e os agregadores de dados se colocam na linha de frente, preenchendo a lacuna com painéis que fazem a medição do distanciamento social com base nos dados de localização de aplicativos para smartphones e torres de celular, aplicativos de rastreamento de contato usando serviços de geolocalização e Bluetooth, e criando modelos para prever a carga epidêmica e as necessidades hospitalares. Diante da incerteza, esses dados podem trazer algum conforto, na forma de fatos tangíveis diante de muitas incógnitas.

Leia também:

Como colocar sua carreira de volta nos trilhos

Como destacar sua presença em uma reunião virtual

Em uma situação de crise como a que enfrentamos, os dados podem ser uma ferramenta essencial para elaborarmos respostas, alocarmos recursos, medirmos a eficácia de intervenções como distanciamento social, e sabermos quando poderemos reabrir as economias. No entanto, dados incompletos ou incorretos também podem turvar as águas, obscurecendo nuances importantes de populações, ignorando fatores importantes como as realidades socioeconômicas e criando uma falsa sensação de pânico ou de segurança, sem mencionar outros danos, como a exposição desnecessária de informações confidenciais. Neste momento, dados incorretos podem gerar graves passos em falso, com consequências para milhões de pessoas.

Infelizmente, muitas dessas soluções tecnológicas – ainda que bem-intencionadas – não fornecem a transparência a que aspiram. Em muitos casos, há um envolvimento insuficiente com especialistas no assunto, como epidemiologistas especializados em modelos da disseminação de doenças infecciosas ou clínicos de linha de frente capazes de ajudar a priorizar as necessidades. Porém, como as empresas de tecnologia e telecomunicações têm maior acesso a dados de dispositivos móveis, enormes recursos financeiros e equipes maiores de cientistas de dados do que os pesquisadores das universidades, seus produtos de dados são lançados em um volume maior do que os estudos de alta qualidade.

Seja você um CEO, um consultor, uma autoridade em políticas públicas ou apenas alguém tentando decifrar o que se passa, é essencial ser capaz de separar os dados aproveitáveis dos enganosos – ou mesmo equivocados.

Armadilhas comuns

Mesmo que você não tenha a qualificação necessária para avaliar os detalhes de cada painel ou gráfico e pesquise com o que se depara, existem sinais de alerta comuns capazes de apontar que os dados podem não ser confiáveis. Saiba quais são esses sinais:

Produtos de dados muito amplos, específicos ou sem contexto. Dados agregados em excesso – como métricas nacionais de distanciamento físico que alguns de nossos maiores agregadores de dados têm divulgado – ocultam variações locais e regionais importantes, não são práticos e pouco significam se usados em comparações entre países, devido às enormes disparidades sociais, demográficas e econômicas do mundo.

Por outro lado, dados excessivamente desagregados podem causar danos irreversíveis. Profissionais de saúde pública e especialistas em privacidade de dados se valem da proporcionalidade – use apenas os dados absolutamente necessários para a finalidade pretendida e nada mais. Em certa medida, todos os dados podem violar a privacidade da identidade de indivíduos ou grupos, mas a divulgação de pontuações de bairros específicos pode vexar ou penalizar comunidades, ignorando as realidades socioeconômicas da vida das pessoas que as impedem de se manter confinadas em casa. Exemplos ainda mais detalhados, como a clientela de estabelecimentos comerciais identificáveis, geram o risco de desidentificar grupos religiosos, pacientes que visitam hospitais oncológicos, clínicas de HIV ou clínicas de saúde reprodutiva, ou aqueles que procuram assistência do poder público. As comunidades médicas e de saúde pública há tempos consideravam inaceitável a publicação dessas informações sem o devido consentimento, mas, recentemente, as empresas as têm divulgado em painéis disponíveis ao público em geral.

Mesmo os dados em uma resolução espacial apropriada devem ser interpretados com cautela – o contexto é fundamental. Digamos que você se depare com um mapa que mostra uma diminuição de 20% na mobilidade em um subúrbio americano e uma redução de 40% em uma cidade próxima após o anúncio de medidas de distanciamento social. A diminuição no subúrbio pode conduzir adequadamente o distanciamento físico para um limite abaixo do desejado, uma vez que os moradores partiram de uma linha de base relativamente baixa. A cidade ainda pode estar longe da redução de mobilidade necessária para impactar significativamente as taxas de transmissão, já que seus moradores tinham grande mobilidade antes. Até entendermos melhor como a mudança nesses padrões de mobilidade afetam os aspectos epidemiológicos da doença, devemos utilizar esses dados com cautela. Simplesmente apresentá-los ou interpretá-los sem uma compreensão contextual adequada pode causar efeitos indesejados, como a imposição ou o relaxamento de restrições a vidas e meios de subsistência, com base em informações incompletas.

As tecnologias por trás dos dados não são analisadas em profundidade ou têm utilidade limitada. Soluções tecnológicas, como o rastreamento de contato por smartphones – uma solução que tem ganhado força em muitos países – têm um potencial ainda não testado, mas apenas como parte de uma estratégia mais abrangente que inclui um sistema de saúde sólido e atuante. Jason Bay, líder de produto do bem-sucedido aplicativo de rastreamento de Cingapura TraceTogether adverte que “o rastreamento de contato automático não é a solução milagrosa para o coronavírus”. No entanto, alguns esforços de rastreamento de contatos por meio de aplicativos estão sendo envidados para enquadrar as pessoas em “estratificações de risco”, e essas estimativas estão sendo usadas para pautar decisões sobre a quarentena, o isolamento e a liberdade de movimento, sem testes concomitantes.

Tanto produtores quanto consumidores dos resultados desses aplicativos devem entender quais são suas falhas. Eles podem se revelar muito úteis se sofrermos ondas recorrentes nos próximos meses, em que os surtos podem ser mais localizados e nossa capacidade de teste for proporcional às nossas aspirações tecnológicas. Na ausência de planos de teste e tratamento totalmente integrados, no entanto, esses aplicativos apresentam o risco de fornecer tanto uma falsa sensação de segurança às comunidades onde indivíduos infectados – porém assintomáticos – podem continuar a espalhar a doença, como exigir que um número excessivamente grande de pessoas faça quarentena. A reação comportamental da população a esses aplicativos é, portanto, desconhecida e provavelmente varia muito entre as sociedades.

Em alguns casos, os dados dos aplicativos de rastreamento exigem outra ressalva: os métodos de que se valem não são transparentes e, portanto, não podem ser totalmente avaliados por especialistas. Alguns aplicativos de rastreamento de contatos seguem algoritmos de “caixa preta”, que impedem a comunidade global de cientistas de refiná-los ou adotá-los em outros contextos. Essas intervenções sem transparência e validação – que estão sendo implementadas (ou revertidas) em países como China, Índia, Israel e Vietnã – estão em contravenção direta à colaboração aberta e transfronteiriça que os cientistas adotaram para enfrentar a pandemia da COVID-19. Somente algoritmos transparentes e examinados em minúcia devem ser considerados para complementar as intervenções na saúde pública que afetam a vida de milhões de pessoas.

Os modelos são produzidos e apresentados sem a necessária participação de especialistas. Tecnólogos bem-intencionados e empresas de consultoria altamente influentes estão assessorando governos e, consequentemente, empresas e populações em todo o mundo, a respeito de estratégias para combater a epidemia, inclusive por meio da construção de modelos de projeção e previsão. Os modelos epidemiológicos que podem ajudar a prever a carga e o padrão de propagação da COVID-19 se baseiam em vários parâmetros, até o momento, extremamente incertos. Ainda nos faltam muitos dos fatos básicos sobre essa doença, inclusive quantas pessoas apresentam sintomas, se quem já foi infectado está imune à reinfecção e – principalmente – quantas pessoas foram infectadas até agora. Na ausência de dados confiáveis de testes virológicos, não podemos ajustar os modelos com precisão, nem saber com segurança como será o futuro dessa epidemia por todos esses motivos; ainda assim, números estão sendo apresentados aos governos e ao público com uma aparência de certeza.

Tomemos um exemplo recente: uma importante empresa de consultoria global explicou suas projeções para uma cidade americana da costa leste, sobrepondo a elas o que chamaram de “curva de Wuhan”. As duas populações e cidades não poderiam ser mais diferentes em sua infraestrutura demográfica e de assistência médica. Tais simplificações excessivas arriscam oferecer projeções imprecisas, causando o desvio prematuro de recursos críticos dos locais mais necessitados. As corporações possuem os vastos recursos necessários para repassar rapidamente o conhecimento gerado a partir de seus dados e tecnologias para governos e comunidades, mas estão terceirizando esse conhecimento dentro de suas próprias fileiras. Embora a vontade de agir rapidamente possa ser tentadora, uma abordagem “mova-se rápido e quebre tudo” – a marca registrada da nossa cultura de startup – é inadequada aqui. Unir esse entusiasmo ao tipo certo de qualificação pode nos levar mais longe.

Leia com cuidado e confie com cautela

Contar com fontes confiáveis é sempre um bom conselho, mas agora é uma necessidade absoluta. Aqui estão algumas balizas para oferecer alguma orientação, seja você um produtor ou consumidor de dados.

Transparência: observe como os dados, tecnologias ou recomendações são apresentados. Quanto mais transparentes forem os provedores sobre a representatividade de seus dados, métodos analíticos ou algoritmos, mais confiança terão em seu processo e, portanto, estarão mais abertos ao escrutínio público. Esses são os parceiros de conhecimento mais seguros.

Um exemplo: o governo de Cingapura mostrou-se totalmente transparente sobre o código, algoritmo e lógica usados em seu aplicativo de contato, TraceTogether. Durante o lançamento do aplicativo, eles publicaram abertamente um resumo de políticas e um relatório técnico, descrevendo a lógica e o funcionamento do aplicativo e – o mais importante – o protocolo (“BlueTrace”) e a base de código (“OpenTrace”), permitindo uma revisão aberta.

Respeito: procure sinais de arrogância. Desrespeito arbitrário à privacidade, direitos civis ou fatos científicos bem estabelecidos indica, na melhor das hipóteses, um excesso de confiança e, na pior, irresponsabilidade. É provável que esses tipos de abordagens resultem em mais danos. Os analistas que são conservadores em suas recomendações e compartilham a incerteza associada a suas interpretações, situando suas descobertas no contexto local apropriado, provavelmente são mais úteis.

Um exemplo: A Telenor, a gigante norueguesa das telecomunicações, foi pioneira do uso responsável de dados agregados sobre mobilidade obtidos a partir dos registros das torres de telefonia celular. Esses dados foram usados, em estreita colaboração com cientistas e profissionais locais, para modelar, prever e responder a epidemias em todo o mundo. A Telenor divulgou publicamente seus métodos e ofereceu orientação tecnológica sobre como os dados de empresas de telecomunicações podem ser usados em emergências de saúde pública em um formato responsável e anônimo, sem colocar em risco a desidentificação.

Qualificação: busque profissionais. Examine a qualificação de quem fornece e processa os dados. Estamos enfrentando uma avalanche de dados e interpretações dos tipos errados de especialistas, resultando em uma alta taxa de relação sinal-ruído. Nos dias mais otimistas, não queremos que nossos banqueiros sejam nossos cirurgiões.

Um exemplo: O Imperial College, entre outros grupos acadêmicos, está envolvido na orientação dos tomadores de decisão na reação do Reino Unido à Covid-19 desde os primeiros dias da epidemia, através do trabalho do MRC Center for Global Infectious Disease Analysis. Nos EUA, as colaborações de longa data entre os departamentos de saúde estaduais e locais e os grupos de pesquisa cresceram por conta de novas parcerias. Em ambos os países, esses esforços dependem, de forma crítica, do financiamento contínuo de centros capazes de apoiar o desenvolvimento metodológico e a formação durante períodos inter-epidêmicos, mobilizados para reagir em momentos de crise.

Plataformas abertas: busque colaboradores. Existem vários agregadores de dados comprometidos em apoiar um ecossistema de comunidades, empresas e parceiros de pesquisa, compartilhando dados ou códigos de maneira segura e responsável. Tais abordagens de ecossistema aberto, embora não sejam fáceis de gerenciar, podem gerar altos dividendos.

Um exemplo: Onde empresas de tecnologia como Camber Systems, Cubeiq e Facebook permitiram que cientistas analisem seus dados, os pesquisadores podem comparar as informações nesses novos fluxos de dados para explicar a representatividade e corrigir viéses, tornando os dados ainda mais úteis. A Covid-19 Mobility Data Network, da qual fazemos parte, representa uma colaboração voluntária de epidemiologistas de todo o mundo, que analisam dados agregados de empresas de tecnologia para fornecer informações diárias a autoridades municipais e estaduais da Califórnia a Dhaka, Bangladesh. Os governos comunicam quais lacunas de informação existem em seu planejamento e elaboração de políticas, os cientistas ajudam a identificar as melhores abordagens analíticas para suprir essas lacunas e as empresas de tecnologia disponibilizam os dados aos quais têm acesso em um formato explicativo e interpretável. Toda troca de dados segue rígidas diretrizes éticas institucionais e está em conformidade com as leis locais e internacionais. Os resultados diários atendem às necessidades articuladas dos agentes governamentais em colaboração.

Essa pandemia foi estudada mais intensamente em um período menor do que qualquer outro evento na história humana. Nosso mundo globalizado gerou e compartilhou rapidamente uma enorme quantidade de informações sobre ela. É inevitável que haja dados inadequados nesse caldeirão. Esses dados numerosos, descentralizados e provenientes de fontes coletivas podem ser convertidos com segurança em um conhecimento capaz de salvar vidas, desde que moderados pela qualificação, transparência, rigor e colaboração. Ao tomar suas próprias decisões, leia atentamente, confie com cuidado e, em caso de dúvida, procure os especialistas.


Se o nosso conteúdo lhe ajuda a enfrentar esses desafios, considere ser um assinante da HBR Brasil. A assinatura é a melhor forma de apoiar a criação desses recursos.


Satchit Balsari é médico do Beth Israel Deaconess Medical Center em Boston e professor assistente de medicina de emergência e saúde pública da Harvard University. Sua pesquisa se concentra na implementação da saúde digital em ambientes com restrições de recursos, inclusive em populações afetadas por desastres, guerras e migração forçada. Balsari é professor do FXB Center for Health and Human Rights de Harvard.


Caroline Buckee é professora associada de epidemiologia e diretora associada do Center for Communicable Disease Dynamics da Harvard T.H. Chan School of Public Health. Seu trabalho se concentra na epidemiologia e controle de doenças infecciosas como malária, dengue e cólera, e seu grupo utiliza dados de telefones celulares para analisar como os padrões de mobilidade afetam a propagação de doenças.


Tarun Khanna é professor da cátedra Jorge Paulo Lemann da Harvard Business School, diretor do Lakshmi Mittal South Asia Institute, também de Harvard, e autor de “Trust: creating the foundation for entrepreneurship in developing countries (Berrett-Koehler, 2018).

Compartilhe nas redes sociais!

replica rolex