All Rights ReservedView Non-AMP Version
Preprod IT Forum
  • Homepage
  • Tendências
Notícias

Big Data não é apenas tecnologia

Um tema que realmente está entre os top 3 para os CIOs e profissionais de TI é Big Data. Por isso, volta e meia retorno ao assunto. Big Data é muito mais que um imenso volume de dados. Por isso o nome não me parece muito adequado. O valor de Big Data vem da sua dinâmica, provocada pela análise dos dados ou seja, dos dados falarem por sim mesmo. Dados simplesmente armazenados não tem valor.

Big Data não é apenas tecnologia. Tentar simplificar vendendo a ideia que Big Data se materializa na empresa simplesmente comprando tecnologias do fornecedor A ou B não cria valor para o negócio, apenas gera frustrações bem grandes.

As melhores notícias de tecnologia B2B
Acompanhe todas as novidades diretamente na sua caixa de entrada

Big Data embute mudanças na maneira de pensarmos dados. Por exemplo, vamos olhar a variável que nos parece mais simples, que é volume. Quando saímos do pensamento baseado na escassez para abundância de dados devemos pensar diferente. Pela dificuldade e limitação tecnológica nós acabamos construindo um modelo mental de escassez de dados. Com isso refinamos uma série de práticas como análises estatísticas por amostragem. A partir de uma pequena amostra de dados, extrapolamos para um cenário mais amplo. Com o tempo refinamos os modelos e hoje eles são bastante confiáveis. Entretanto, há algumas lacunas.

A precisão depende muito da amostragem. Por exemplo uma pesquisa de opinião baseada em uma amostra randômica de usuários de telefones fixos embute um viés: se a coleta for feita no horário de trabalho, quem vai atender não necessariamente representa a opinião das pessoas que trabalham fora.  Podem ter um ponto de vista bem diferente das que podem atender o telefone doméstico durante o dia.

Além disso, se quisermos detalhar um pouco mais a pesquisa, um universo de amostras pequeno, como fazemos hoje, não terá representatividade estatística. Um exemplo? As pesquisas de intenção de voto. Geralmente pega-se umas 2.000 pessoas e tem-se um quadro geral. Mas se quisermos detalhar ao ponto de queremos saber a intenção e jovens entre 18 e 25 anos do estado da Paraíba a amostragem será insuficiente. Estamos presos às perguntas iniciais e não podemos sair delas.

Mas com volumes grandes o pensamento é outro. Quando a variável  passa a ser “ N=todos”  podemos fazer granulações inimagináveis no modelo de escassez. Podemos identificar tendências e descobrir correlações não pensadas antes. Podemos fazer novas perguntas e descer a novos níveis de segmentação. Saímos para um “mind set” mais oportuno ou seja, aproveitamos oportunidades de fazer perguntas não pensadas antes de analisar os dados.

Outra característica interessante que afeta nossa maneira de olhar os dados é que volumes grandes não demandam precisão extra de cada dado. Aliás, já fazemos isso hoje. Pensemos em um numero grande como o PIB de um país. Não detalhamos os centavos, mas ficamos restritos aos grandes números e as tendências que eles apontam.  Recomendo ler o paper “If you have too much data, then good enough is Good Enough”. Mostra a mudança no pensar exatidão dos dados versus a tendência que os dados nos apontam.

O exemplo típico é a conceituação do Hadoop. Ao usá-lo podemos aceitar que os dados manuseados não serão 100% exatos, mas o volume será grande o suficiente para apontar tendências. Claro, não se imagina substituir o banco de dados relacional que lida com dados precisos e exatos como nossa conta corrente bancária pelo Hadoop, mas mostra que podemos de forma complementar, trabalhar com as diversas tecnologias, cada uma no seu espaço.

Outra grande oportunidade que Big Data nos abre é conseguirmos fazer correlações entre dados, à primeira vista, sem aparente conexões.  Um exemplo tradicional é o da Amazon e sua estratégia de recomendações, baseada na análise de quem compra determinado livro tenderá a comprar outros. Como isso é feito? Vale a pena dar uma olhada no algoritmo basico usado pela Amazon, conhecido como “ item-to-item collaborative filtering”  e descrita em http://www.disco.ethz.ch/lectures/fs10/seminar/paper/michael-2.pdf.  Na prática a adoção deste modelo revolucionou o e-commerce e algoritmos similares passaram a fazer parte do cerne de qualquer sistema de comércio eletrônico que se preze. O principio básico é conhecer o “que” e não o “porque”. Com correlações nós passamos a trabalhar não mais com certezas, mas com probabilidades.

Com volumes muito grandes, as possibilidades de acerto tornam-se bem mais significativas. Há uma mudança de pensar neste conceito. Saímos do modelo “hypothesis-driven” onde tentamos provar nossa hipótese analisando dados específicos com perguntas especificas, para “data-driven” onde submetemos um imenso e variado volume de  dados a algoritmos de correlação. Neste último podemos encontrar resultados inesperados e a partir deles nos inspirarmos a formular novas perguntas. O fator chave passa a ser fazer perguntas certas a cada nova análise. Um cuidado a evitar é o fenômeno que chamamos de “Big Noise”  com volumes de dados muito grandes, mas que não nos trazem correlações efetivas.

Um outro exemplo de uso de correlação de dados é o produto University Pages do Linkedin, que propõe analisar como carreiras e universidades se interconectam. Por exemplo, se você quiser seguir determinada carreira qual seria a melhor universidade a cursar? Recomendo ver o texto sobre o projeto, inclusive com detalhes das tecnologias utilizadas em https://engineering.linkedin.com/university/building-linkedin-university-pages .

Correlacionando dados podemos desenvolver  algoritmos preditivos, que buscam identificar eventos antes que eles aconteçam. Um exemplo de uso é a manutenção de equipamentos como aeronaves, automóveis ou turbinas de aviões. O princípio básico é que quando as coisas acontecem ( ou quebram)não são de imediato, mas o problema evolui gradualmente com o tempo. Coletando dados de sensores podemos fazer análises correlacionais para identificar determinados padrões que sinalizam futuros problemas. Quanto mais cedo uma provável anormalidade é detectada, mais eficiente é o processo de manutenção. Muito mais eficiente que a manutenção preventiva que nos indica uma troca de óleo cada 5.000 kms. Mas a maneira de dirigir, as estradas que o veiculo trafega e as temperaturas que está exposto afetam de forma significativa este tempo. Com algoritmos preditivos pode-se identificar que um determinado veiculo deve trocar o óleo a 4.000 kms e o outro a 6.500 kms.

Big Data traz uma outra mudança fundamental em seu bojo. A substituição do modelo baseado em intuição por “data-driven”. A intuição funciona (e não vai deixar de existir) mas é baseado na ideia que existe causalidade em tudo. Muitas vezes acreditamos que tal efeito é devido a uma determinada causa, pelo simples fato que não existiam outras variáveis para analisar. Hoje temos e provavelmente muitas das nossas ideias de causa-efeito  que nos guiavam não serão mais  válidas….

Se quisermos ter sucesso em Big Data não devemos começar pela tecnologia. O primeiro passo é identificar as oportunidades de valor, ter as expertises necessárias, saber quais e onde estão os dados e só então selecionar a tecnologia. E é um processo contínuo e evolutivo. Novas correlações de dados surgirão e sempre faremos novas e instigantes perguntas. Afinal é assim que a sociedade evolui: sendo curiosa e explorando novos caminhos.

 

(*) Cezar Taurion é consultor sênior, sempre envolvido em discutir e prever os impactos de TI nos negócios, com experiência em grandes corporações como IBM, PwC e Shell. Autor de seis livros, sobre diversos temas como Open Source, Inovação, Cloud Computing e Big Data. Atuou em projetos de grande porte e transformadores de negócios e constantemente palestra em eventos de renome.

Next Trend Micro lança Programa Global de Parceiros »
Previous « São 85% dos brasileiros que usam celular, mas apenas 30% usam internet móvel
Leave a Comment
Share
Published by
cristina.deluca
12 anos ago

    Related Post

  • Novos executivos da semana: Uncover, Tech for Humans, Diebold Nixdorf, Unico e mais
  • Se o Brasil não organizar seus dados culturais, outro fará isso por nós, alerta Jorge Brivilati
  • CBYK nomeia Maurício Matsuda como novo CEO

Recent Posts

  • Notícias

83% dos CIOs já adiaram projetos estratégicos por restrições de orçamento

A pressão por controle de custos vem alterando a dinâmica das áreas de tecnologia nas…

6 dias ago
  • Estudos

Fintechs brasileiras captam US$ 2,77 bi em 2025 e entram em nova fase de maturidade

O mercado brasileiro de fintechs passou por uma transformação no perfil dos investimentos em 2025.…

6 dias ago
  • Notícias

Sioux aposta em IA e dados para nova fase de experiências digitais e expande atuação para a Europa

O avanço da inteligência artificial e o uso estratégico de dados vêm transformando a forma…

6 dias ago
  • Artigos

Qual é o risco do desenvolvimento de software com IA?

Por Ramon Ribeiro Quase metade do código produzido por assistentes de inteligência artificial contém vulnerabilidades…

6 dias ago
  • Notícias

Se o Brasil não organizar seus dados culturais, outro fará isso por nós, alerta Jorge Brivilati

Peça a um modelo de inteligência artificial que gere a imagem de uma cidade, sem…

6 dias ago
  • Notícias

Novos executivos da semana: Uncover, Tech for Humans, Diebold Nixdorf, Unico e mais

O IT Forum apresenta, semanalmente, os novos executivos e os principais anúncios de contratações, promoções e mudanças…

6 dias ago
All Rights ReservedView Non-AMP Version
  • L