O Big Data promete grandes insights, mas nem sempre quanto mais dados melhor, adverte o estatístico que conseguiu prever com precisão os resultados das eleições presidenciais americanas em todos os 50 estados
Publicado:
Leitura 5 minutos
A promessa do Big Data é a geração de grandes insights para os usuários, mas, mais dados nem sempre é o melhor, adverte o estatístico Nate Silver, que se tornou um dos rostos mais conhecidos do mundo depois de publicar em seu blog, FiveThirtyEight, a análise de dados que previu, com precisão, os resultados das eleições presidenciais norte-americanas em todos os 50 estados da federação.
Quanto mais dados, “mais as pessoas podem escolher a
cereja”, os pontos de dados que confirmam o que eles querem mostrar.
Abundância de dados é um problema significativo na política , onde muitos têm interesse no resultado. Mas também é um problema em áreas que vão desde a medicina – em que
muitos pesquisadores e revistas preferem ver os estudos que mostram um
resultado interessante do que a confirmação de uma notícia – e a
previsão de terremotos.
“A previsão é uma ferramenta realmente importante, e é essencial para a
ciência, para ver se a realidade subjetiva bate com o mundo objetivo”, explica.
Acontece que, juntamente com uma visão real, o Big Data pode trazer “uma
grande quantidade de correlações espúrias”, disse Silver recente conferência da RMS, realizada em Boston.
Além de escrever o blog FiveThirtyEight
, agora ancorado no New York Times, Silver é autor do livro “The Signal and the Noise: Why So Many Predictions Fail — but Some Don’t”, que será publicado no Brasil, ainda este ano, pela Intrínseca.
Em sua apresentação, ofereceu quatro dicas para ganhar
mais eficiência a partir da análise do Big Data:
1. Pense probabilisticamente
“Pense em termos de probabilidades e não em termos absolutos”, aconselha Silver.
Não tenha medo de comunicar o nível de incerteza que vem com suas
previsões – assim como pesquisas de opinião pública incluem margens de
erros – mesmo que nem todos entendam.
Não fazê-lo pode ter graves consequências. O nível de incerteza pode salvar vidas no caso de previsões meteorológicas.
“Sabemos a incidência dos terremotos em longo prazo: a cada X anos você
terá Y terremotos na área Z”, diz Silver. “Mas prever
terremotos num momento específico, não há como.”
Previsões de probabilidade são um “ponto no caminho entre a ignorância e o conhecimento”, mas eles não são certezas absolutas.
“A marca de uma boa previsão é que cada uma das probabilidades esteja razoavelmente certa no longo prazo”, argumenta Silver.
2. Saiba de onde você está partindo
Ou seja, conheça seus pontos fracos, os
incentivos para chegar às conclusões e certos
preconceitos que possam contaminar a sua análise. “A análise é definida pelo seu elo mais fraco”, diz Silver.
Por exemplo: em um experimento sobre o preconceito de gênero, currículos técnicos foram mostrados – um com um nome feminino e um
com um nome masculino. Pessoas que alegaram não ter preconceito de gênero discriminaram mais o currículo feminino. Por quê?
Aqueles que estavam cientes de suas viés em direção a tendências eram
mais propensos a tomar medidas para combatê-la, disse Silver.
Estar preso a certezas do passado, por exemplo, também dificulta a análise do presente e a previsão do futuro. Os
especialistas tradicionais conhecem tão bem o passado que tendem a
construir narrativas muito bem-amarradinhas em sua cabeça e não enxergam
o que Nassim Nicholas Taleb chamou de cisnes negros. “Quando construímos essas histórias,
podemos perder a capacidade de pensar criticamente sobre as evidências”,
escreveu Silver em seu livro. A vida é feita de incertezas. Foi a certeza de que os preços de imóveis subiriam para sempre, em vez de ser uma bolha que poderia estourar a qualquer momento, que
derrubou a economia americana.
3. Verifique se há alguma
variação em seus dados antes de confiar em uma previsão.
Em outras palavras, a previsão do tempo com precisão em Manaus não é um feito tão impressionante como a previsão do tempo em São Paulo.
Da mesma forma, a previsão de uma economia estável é mais fácil do que
em tempos de muitos altos e baixos.
Um modelo detalhado e sofisticado, com base em premissas duvidosas bobas, pode levá-lo a não fazer muita coisa boa.
Ao longo de uma campanha, por exemplo, o resultado se torna mais previsível e as
previsões ficam mais estáveis. Um bom modelo, diz Nate Silver, deve ser
atualizado conforme novos fatos forem aparecendo. Por isso ele usa o
teorema de Bayes.
4. Finalmente, tentativas e erros são úteis.
Modelos estendidos funcionam bem quando são desenvolvidos lentamente, com um monte de feedback. Tal como acontece com muitas coisas na vida: “Você deve desconfiar de resultados milagrosos.”
Em entrevista a Tim Harford, da BBC, em outubro do ano passado, Silver detalhou um pouco mais o seu modelo. Ele utiliza o teorema de Bayes
para ajustar as probabilidades aos novos fatos que vão surgindo – no
caso das eleições, as novas pesquisas. Bayes trata de probabilidades condicionais: a
chance de algo acontecer versus a chance de o seu contrário acontecer.
Leva em conta os falsos positivos e falsos negativos também.
Em novembro, Silver foi um dos convidados do Talk to Google. Confira no vídeo abaixo.
Redação
1 semana atrás
Redação
1 semana atrás
Redação
1 semana atrás
Pamela Sousa
1 semana atrás