All Rights ReservedView Non-AMP Version
Preprod IT Forum
  • Homepage
  • Plataformas
Notícias

Hadoop reforça a importância de Big Data

As tecnologias Hadoop, plataforma para análise de dados de código aberto, desenvolvida pela Apache, estão se tornando fundamentais para ajudar empresas a gerirem grandes volumes de dados, informam os especialistas. Entre as principais organizações que abraçaram a ferramenta estão Nasa, Twitter e Netflix.

A plataforma aberta de computação distribuída ganhou impulso como mecanismo para lidar com o conceito de Big Data, segundo o qual as empresas procuram extrair valor dos dados de seus sistemas de informação.
Usuários corporativos estão adotando tanto as tecnologias da plataforma Hadoop existentes como as que complementam sistemas que desenvolvem.

As melhores notícias de tecnologia B2B
Acompanhe todas as novidades diretamente na sua caixa de entrada

A Nasa adota a Hadoop para lidar com grandes volumes de dados em projetos como o Square Kilometer Array, para visualização do céu. Estima-se que este sistema produzirá 700 terabyte de dados quando for construído na próxima década.

Os sistemas vão incluir a Hadoop, assim como tecnologias Apache Object Oriented Data Technology (OODT) para gerenciar grandes volumes de informações explica Chris Mattmann, cientista de computação da agência espacial dos Estados Unidos.

O Twitter é outro grande usuário de Hadoop. “Todos os produtos de relevância [a  partir dos quais oferece recomendações personalizadas aos usuários] têm alguma interação com a Hadoop”, diz Oscar Boykin, um cientista de dados da empresa.

A rede social adota Hadoop há cerca de quatro anos e até desenvolveu o Scalding, um repositório Scala para facilitar tarefas executadas pelo Hadoop MapReduce. A ferramenta foi desenhada sobre o repositório Cascading Java, criado para reduzir a complexidade da plataforma Hadoop.

Os subprojetos da Hadoop incluem a MapReduce, uma matriz de software para o processamento de grandes conjuntos de processamento em clusters; a Hadoop Distributed File System (HDFS), que oferece acesso rápido a dados de aplicações e Common, com utilitários para apoiar outros subprojetos Hadoop.

A empresa de aluguel de filmes Netflix começou a usar o Apache Zookeeper, tecnologia relacionada com Hadoop para gestão de configurações. “Vamos utilizá-lo para todo o tipo de coisas: segurança distribuída, gestão de pedidos e tráfego” para organizar as prioridades do serviço, diz Jordan Zimmerman, engenheiro sênior da  Netflix. “Abrimos o código de um software cliente para o Zookeeper, que escrevi chamado Curador”. O cliente serve como um repositório para programadores.

A rede social Tagged utiliza a tecnologia Hadoop para análise de informações e processa cerca de meio terabyte de novos dados diários, diz Rich McKinley, engenheiro de dados da empresa.

Segundo o engenheiro, a Hadoop está sendo aplicada em tarefas que superam a capacidade da ferramenta Greenplum, comprada pela EMC. “Queremos fazer mais com Hadoop para incrementar a escala”.

Apesar de elogiarem a Hadoop, os usuários apontam deficiências como a fiabilidade e monitoramento de tarefas. McKinley menciona um problema com a latência. “O tempo para obter dados é bastante rápido, mas todos reclamam da grande latência na execução de consultas”. A Tagged utiliza a Apache Hive, outro projeto derivado da Hadoop, para consultas “ad hoc”.

“Isso pode levar vários minutos para obter resultados que, na Greenplum, levaria questões de segundos”. Mas usar a Hadoop é mais barato que Greenplum, ressalva.

O que promete a Hadoop 2.0

A Hadoop 1.0 foi lançada no final de 2011, com tecnologia de autenticação forte via Kerberos e suporte para bases de dados HBase. A versão também impede os usuários individuais de derrubarem clusters, usando restrições sobre a MapReduce.

Mas uma nova versão está no horizonte. O CTO da HortonWorks, Eric Baldeschwieler, forneceu um roteiro de evolução da Hadoop, que inclui a versão 2.0.  A plataforma entrou em fase alfa no início deste ano “e terá a camada de MapReduce recodificada de extremo a extremo, além de uma reescrita completa de toda a lógica de armazenamento e da camada de HDFS “, explica Baldeschwieler, contribuinte frequente para o desenvolvimento da plataforma.

A Hadoop 2.0 estará focada na escala e inovação, baseada na Yarn (próxima geração da MapReduce) e em recursos de federação. A Yarn permitirá aos usuários adicionar os seus próprios modelos de computação para não ficarem presos à MapReduce.

“Temos boas expectativas de que a comunidade invente muitas maneiras de usar a Hadoop”, diz Baldeschwieler. As adoções previstas incluem aplicações de tempo real e algoritmos de aprendizagem artificial, além das operações de armazenamento com capacidade de expansão.

Capacidades de funcionamento o tempo todo da versão 2.0 deverão permitir a constituição de clusters sem tempo de inatividade. A versão prevê também o armazenamento escalável. A Hadoop 2.0 estará disponível dentro de um ano.

Next Stuxnet, Duqu e Flame tinham como alvo Windows pirata no Irã »
Previous « Scopus investe R$ 1 mi em software para ATM compartilhado
Leave a Comment
Share
Published by
Redação
14 anos ago

    Related Post

  • Novos executivos da semana: Uncover, Tech for Humans, Diebold Nixdorf, Unico e mais
  • Se o Brasil não organizar seus dados culturais, outro fará isso por nós, alerta Jorge Brivilati
  • CBYK nomeia Maurício Matsuda como novo CEO

Recent Posts

  • Notícias

83% dos CIOs já adiaram projetos estratégicos por restrições de orçamento

A pressão por controle de custos vem alterando a dinâmica das áreas de tecnologia nas…

6 dias ago
  • Estudos

Fintechs brasileiras captam US$ 2,77 bi em 2025 e entram em nova fase de maturidade

O mercado brasileiro de fintechs passou por uma transformação no perfil dos investimentos em 2025.…

6 dias ago
  • Notícias

Sioux aposta em IA e dados para nova fase de experiências digitais e expande atuação para a Europa

O avanço da inteligência artificial e o uso estratégico de dados vêm transformando a forma…

6 dias ago
  • Artigos

Qual é o risco do desenvolvimento de software com IA?

Por Ramon Ribeiro Quase metade do código produzido por assistentes de inteligência artificial contém vulnerabilidades…

6 dias ago
  • Notícias

Se o Brasil não organizar seus dados culturais, outro fará isso por nós, alerta Jorge Brivilati

Peça a um modelo de inteligência artificial que gere a imagem de uma cidade, sem…

6 dias ago
  • Notícias

Novos executivos da semana: Uncover, Tech for Humans, Diebold Nixdorf, Unico e mais

O IT Forum apresenta, semanalmente, os novos executivos e os principais anúncios de contratações, promoções e mudanças…

6 dias ago
All Rights ReservedView Non-AMP Version
  • L