Folha de S. Paulo


Google e gripe: como o big data nos ajudará a cometer erros gigantescos

A tentativa do Google de prever a difusão da gripe por meio de termos de busca demonstra que dados em excesso podem causar muita confusão

É raro que um conceito de utilidade duradoura surja do setor de pesquisa de mercado, mas o ciclo do sensacionalismo detectado pela Gartner é a exceção que prova a regra. Trata-se de um gráfico que descreve o ciclo de vida de uma inovação tecnológica em cinco fases. Primeiro vem o "gatilho", que deflagra o entusiasmo febril e resulta em rápida escalada do interesse público, o que por fim conduz a um "pico de expectativas exageradas" (fase dois), depois do que vem uma forte queda, quando experiências adicionais revelam que a inovação em questão não é capaz de cumprir as (extravagantes) alegações feitas a seu respeito no começo. A curva atinge seu ponto mais baixo no "buraco da desilusão" (fase três), seguido por um crescimento lento mas firme de interesse (a "ladeira do esclarecimento" –fase quatro), quando as companhias descobrem aplicações realmente úteis. A fase final é o "platô da produtividade" –a fase na qual as aplicações úteis da ideia por fim ganharam o mercado.O tempo entre as fases um e cinco varia entre as diversas tecnologias e pode ser de décadas.

Já que o que o trem do "big data" está ganhando ímpeto, o momento é apropriado para perguntar em que ponto da escala do sensacionalismo ele se encontra. A resposta depende de que domínio de aplicação estejamos discutindo. Se for a aplicação de sistemas de análise de dados em larga escala para propósitos comerciais, então muitas das grandes empresas, especialmente os gigantes da internet, já estão na fase quatro. O mesmo se aplica caso o domínio em questão sejam ciências que requerem uso intensivo de dados, como a genômica, astrofísica e física de partículas: as torrentes de dados que estão sendo gerados nesses campos jazem muito além da capacidade de processamento de meros seres humanos.

Mas os proponentes do "big data" têm horizontes mais amplos que a ciência ou os negócios: eles veem a tecnologia como instrumento para reforçar nossa compreensão da sociedade e do comportamento humano, e para melhorar o processo decisório das políticas públicas. Afinal, se a tecla em que você não cansa de bater é a do "processo político baseado em provas concretas", quanto mais provas tiver, melhor. E porque o "big data" é capaz de fornecer toneladas de provas, o que podemos criticar nele?

Assim, em que ponto do ciclo do sensacionalismo as aplicações sociais da tecnologia "big data" se encontram, no momento? A resposta é: na fase um, a de uma rápida ascensão a um pico de expectativas exageradas, aquele período no qual as pessoas acreditam em todos os rumores positivos que ouvem sobre uma dada coisa e fecham os ouvidos às dúvidas e aos críticos.

É em grande parte culpa do Google. Quatro anos atrás, os pesquisadores da companhia causaram uma tempestade ao revelar (em um estudo publicado pela revista "Nature") que as buscas de web dos usuários do Google ofereciam informações melhores e mais atualizadas sobre a difusão da gripe nos Estados Unidos do que os métodos de coleta de dados em uso pelos Centros de Controle e Prevenção de Doenças, uma agência do governo norte-americano. O estudo deflagrou um frenesi de especulações sobre outras possíveis aplicações dos recursos de análise de dados em larguíssima escala nas políticas públicas.

Nas palavras do economista Tim Harford: "O Google Flu Trends era não só rápido, preciso e barato como desprovido de teoria. Os engenheiros do Google nem se incomodaram em desenvolver uma hipótese sobre que termos de busca –'sintomas de gripe' ou 'farmácias perto de casa'– poderiam estar correlacionados à difusão concreta da doença. A equipe do Google simplesmente decidiu alimentar o programa com seus 50 milhões de termos de busca mais usados e permitiu que os algoritmos da empresa fizessem o trabalho".

E assim foi deflagrado o ciclo do sensacionalismo. Se o Google era capaz de fazer isso quanto à gripe, com certeza o mesmo poderia ser feito quanto a muitas outras questões sociais. O que talvez seja mesmo possível. Mas nesse caso específico, o entusiasmo se provou prematuro. A "Nature" reportou recentemente que os resultados do Google Flu Trends já não estão mais batendo com os números concretos. "Depois de fornecer informações rápidas e precisas sobre surtos de gripe por diversos invernos", reportou Harford, "o modelo desprovido de teoria e rico em dados parece ter perdido o faro quanto à orientação que a gripe vai seguir. O modelo do Google apontou para um surto severo de gripe, mas quando entraram os dados lentos e firmes [do centro de controle de doenças do governo norte-americano], eles demonstraram que as estimativas do Google para doenças assemelhadas à gripe eram quase duas vezes maiores que o número real".

O que saiu errado, portanto? Simplesmente isso: o Google nada sabe sobre as causas da gripe. Só está informado sobre as correlações entre termos de busca e surtos da doença. Mas como sabe qualquer estudante ao final do ensino médio, correlação é uma coisa e causação é outra. E a causação é a única base que temos para compreensão real.

Os entusiastas do "big data" não parecem em nada perturbados diante disso. Em muitos casos, dizem, saber que duas coisas se correlacionam é toda a informação necessária. E de fato, no comércio essa pode ser uma visão razoável. Compro coisas para mim e para meus filhos na Amazon, por exemplo, o que leva a empresa a concluir que me deixarei tentar não só pelo volume de cartas de Hugh Trevor-Roper, mas também por novos lançamentos dos grandes astros do rap. Isso é estúpido, mas não faz mal a ninguém. Aplicar o tipo de análise de dados que produz esses absurdos à política pública, no entanto, não seria engraçado. Mas é nessa direção que os mais ardorosos partidários do "big data" desejam nos levar. Deveríamos mandá-los passear.

Tradução de PAULO MIGLIACCI


Endereço da página: