Publicado:
Leitura 6 minutos
Esqueça das suítes de inteligência da IBM, Oracle e SAP Business Objects, os analíticos do SAS, e até mesmo os as ferramentas de visualização de dados da moda, como Tableau Software. Novas plataformas, como Hadoop e NoSQL, demandam novas ferramentas criadas propriamente para esses ambientes.
Este é o principal tema que Jay Parikh, vice-presidente de engenharia de infraestrutura do Facebook, e Ping Li, um parceiro da empresa de venture capital Accel Partners, discutiram na última semana em evento realizado em San Francisco (Califórnia, EUA). Eles falaram sobre os desafios e oportunidades das startups e jovens companhias na arena de Big Data. Há uma pequena dúvida sobre Hadoop, NoSQL, bases de dados e outras plataformas emergentes de explosão de dados que estão evoluindo rapidamente, explicou Li. ?Mas esperamos ver mais novas aplicações sobre essas plataformas?, comentou.
Parikh e Li encorajam mais inovação porque não há velocidade e fôlego suficientes de desenvolvimento para realmente alimentar uma rica comunidade de Big Data, disse. Novos analíticos, business inteligence e virtualização de dados são necessárias, explicam, porque ?plataformas como SAS e R para análise preditiva não foram construídas para um mundo de explosão de dados. O Tableau Software teve forte sucesso, mas foi criado antes mesmo que as ferramentas para esse tipo de base estivessem por aqui.?
Citando uma “grande lacuna” na ligação de usuários de dados de negócios com as novas plataformas subjacentes, Li diz que há também um espaço amplo para novas aplicações de negócios, como CRM, e iniciativas verticais para indústrias de dados intensivos de campo, como óleo e gás.
Li é responsável pelo Big Data Fund, da Accel Partners, que claramente vai se beneficiar se houver uma safra de novas startups de sucesso nas quais investir. Mas por que o Facebook está tomando partido? ?Nós tivemos uma longa história de inovação em infraestrutura muito aberta e contribuímos em vários projetos open source?, disse Parikh. ?Há muito mais para ser feito nesta plataforma, mas não vamos contratar todo engenheiro inteligente. Nós queremos ser capazes de colaborar com as pessoas que não podemos contratar em ambientes abertos de várias comunidades.? Em seus primeiros dias, o Facebook ajudou a comunidade open source com projetos como o Memcached e MySQL. A gigante social também fez contribuições importantes para o Hadoop, incluindo trabalho fundamental na Hive e muitas contribuições para o HBase, HDFS e MapReduce. A companhia foi forçada a inovar porque roda o maior desenvolvimento de Hadoop no mundo, com mais de 100 petabytes de informação.
?Nos construímos a Hive como uma forma de usuários corporativos conseguirem o que eles queriam de nossa [Hadoop] infraestrutura de Big Data?, explicou. ?Escrever trabalhos no MapReduce é tranquilo para engenheiros, mas se você é um analista ou um gerente de produto e quer extrair reportes ou fazer análises, você precisa de uma interface mais fácil para esse dado. E a Hive dá aos nossos usuários de Hadoop uma interface semelhante ao SQL.?
A tese de ?nós precisamos de novas ferramentas? parece amortizar produtos que fizeram grande barulho na conexão de novas plataformas. Parikh indica que há uma tendência na comunidade de Big Data em direção a ?coisas novas e brilhantes?, e não acredita que haja ?um pedaço mágico de tecnologia que vai jogar tudo o que foi feito no passado?.
Li concorda que a base de dados relacional e suas aplicações vão sobreviver, ?mas estamos vendo aplicações novas que vão requerer uma série de outros ferramentais.? A maior parte da base de dados relacional e das plataformas de BI ganharam conexões com o Hadoop. Mas com o passar do tempo, Li prevê novas ferramentas construídas nativamente para estas plataformas.
?É meio parecido com o mundo móvel, onde pessoas começaram a colocar aplicações web no telefone móvel, mas agora estão desenvolvendo de forma nativa com o intuito de tirar vantagem de que o dispositivo tem informação de localização e toda sorte de outras coisas boas?, ponderou.
Na curta lista de plataformas que Li citou como o futuro estão Hadoop, HBase e alguns diferentes sabores de bases de dados NoSQL. Esta cedo para plataformas de tempo real, mas elas também estão emergindo, ele disse, citando o projeto open source do Twitter Storm [Tempestade] e a tecnologia Dremel, do Google. No lado de aplicações, BI, visualização de dados e analytics são o tom para inovação.
O conceito de aprendizado da máquina vai mudar a forma como as pessoas pensam o analytics?, comentou Li. ?Não faremos mais amostragem porque agora poderemos rodar analíticos ao redor de um set de dados repetidamente.?
O processamento dentro da base de dados já foi feito por empresas como Alpine, Fuzzy Logix, IBM SPSS e SAS em redes paralelas de processamento massivo e plataformas como Greenplum, IBM Netezza, e Teradata é ?apenas o primeiro passo?, segundo Li. ?O próximo é rodar isso nativamente sobre algumas das mais novas plataformas.?
Parkh diz que processamento em tempo real e análise de grafos são as áreas mais quentes para se explorar no Facebook, mas as necessidades ainda não são bem servidas pelas tecnologias existentes. ?A forma como o Hadoop está evoluindo é ótima porque ele é aberto, mas nos próximos pares de ano você verá mudanças significativas na pilha que conhecemos hoje no Hadoop?, continuou.
É preciso trabalho no HDFS para fazê-lo mais robusto, mais escalável e mais eficiente, disse. ?demanda em tempo real e a necessidade para processamento incremental vão direcionar o desenvolvimento.
O processamento de grafos é outra área na qual o Facebook está inovando. ?Tudo é modelado como um grafo social, e é uma forma completamente diferente de modelar dados do que é usado no mundo relacional?, explicou Parikh. ?Estamos tentando desenvolver formas mais poderosas de questionar o grafo. O MapReduce requer um monte de interação e não é intuitivo, então estamos produzindo um novo conjunto de ferramentas que permitirá questionar grafos em tempo real.?
Mas mesmo o Facebook, com pouco menos de cinco mil empregados, parece sobrecarregado com o amontoado de trabalho que precisa ser feito. Por isso que há o apelo para desenvolvedores de software empresarial construírem melhores ?ratoeiras? para Big Data.
Saiba mais:
Big Data: entenda o que é o Hadoop e como ele afeta o Data Warehouse
Com big data, surgem dois perfis de profissionais de Data Warehouse
Computação em memória: Hana comprime dados em até 20 vezes
Big Data: computadores ficam mais rápidos e empresas, mais burras
Até 2020, volume do Big Data aumentará 44 vezes
Redação
7 horas atrás
Redação
11 horas atrás
Redação
11 horas atrás
Redação
12 horas atrás