All Rights ReservedView Non-AMP Version
IT Forum
  • Homepage
  • Notícias
Categories: Notícias

VMware lança projeto open source para levar Hadoop a ambientes virtuais

A VMware  anunciou o lançamento do Serengeti,  um projeto open source para promover mudanças no Hadoop, de forma que ele rode da melhor forma tanto  em servidores virtuais quanto em físicos.  A empresa vai oferecer o código resultante de forma aberta sob a licença Apache 2.0, e contribuir com a extensão do código para o projeto core, que é parte da Fundação Apache de Software.
O framework Hadoop se tornou rapidamente a principal ferramenta de manipulação do Big Data. Seu código open source foi inicialmente desenvolvido por Doug Cutting, atualmente arquiteto na Cloudera, uma fabricante que também utiliza essa padronização.

 

As melhores notícias de tecnologia B2B
Acompanhe todas as novidades diretamente na sua caixa de entrada

Em sua maior parte, o Hadoop requer um cluster dedicado de servidor para realizar seu trabalho, e esta é uma forma muito cara para a maioria dos trabalhos de TI. Se ele pudesse rodar em um ambiente virtualizado, seria ativado e desativado de forma mais fácil, disse Fausto Ibarra, diretor sênior de produtos da VMware.

 

Em um ambiente virtual, seria mais fácil prever dois pontos de falha: NameNode e JobTracker. Se estiver no NameNode, o sistema congela quando há queda de cluster. Se ele estivesse rodando em um ambiente virtual, a perda de servidor do NameNode  geraria um servidor duplicado, que seria ativado fora do disco, e o sistema voltaria. Da mesma forma, com um nó no JobTracker Hadoop, outro servidor essencial no cluster e outro ponto único de falha em um cluster físico.

Mas ele não pode ser colocado em um ambiente virtualizado sem tomar conhecimento que está trabalhando com máquinas virtuais. Quão consciente das máquinas virtuais está? ?Não muito?, disse Ibarra em uma entrevista. Ele mantém três cópias de dados então aquela cópia pode ser perdida, mas em um backup primário remanescente.

 

Tanto em configurações virtuais quanto físicas, isso representaria uma recolocação de cada cópia em diferentes servidores físicos, o que faria com que as três cópias fossem perdidas ao mesmo tempo se armazenadas em máquinas virtuais no mesmo host. Mas o Hadoop não consegue distinguir entre máquinas físicas e virtuais então não saberia como distribuir corretamente as cópias ao redor dos clusters.

 

Se apenas uma porção de dados por perdida, isso ainda pode representar o suficiente para congelar uma query complexa em um cluster de Hadoop.

 

Ao passo que o Hadoop pode ser usado em um ou dois projetos em uma companhia atualmente, ele se tornaria um dispositivo de computação de dados central, acessível a muitos usuários, se for executado em um ambiente virtualizado,  mais previsível e controlável. “Estamos permitindo o uso predominante do Hadoop dentro da empresa?, disse Ibarra.

 

A consciência da virtualização no Hadoop também poderia ser oferecida como um serviço de cloud público, continuou o especialista. Desenvolvedores VMware vão contribuir com o código para extender o Hadoop no projeto Serengeti, de forma que ele rode efetivamente em ambientes virtualizados. A mesma extensão será colocada à disposição no projeto Apache Hadoop, que produz a versão referencial para muitos usuários. A empresa também convida outros fabricantes de Hadoop, incluindo Cloudera, GreenPlum, Hortonworks, MapR, e IBM, para participar do projeto e fazer uso de suas extensões.

 

O projeto também pode ser embutido diretamente no Cloudera, Hortonworks, GreenPlum, entre outros, para incorporar as ferramentas aos sistemas, explicou o executivo. Desenvolvedores construindo um novo sistema baseado em Hadoop beneficiariam se ele rodasse em um ambiente virtualizado. Eles frequentemente precisam apenas de um cluster pequeno para iniciar o sistema, mas ao passo que isso começa a crescer, é necessário que eles aumentem esse cluster para continuar os trabalhos. Mais servidores virtuais seriam adicionados a clusters de Hadoop ao passo que as fontes virtualizadas fossem grandes o suficiente.

Saiba mais:

Microsoft lança SQL Server 2012 no Brasil, mas sem Hadoop completo

Hadoop e análises de dados

Vídeos “Big Ideas” : Desmistificando clusters e Hadoop

Next McAfee intensifica foco em PMEs »
Previous « Amazon: uma mudança de paradigma
Share
Published by
Editorial IT Forum 365
14 anos ago

    Related Post

  • Novos executivos da semana: Uncover, Tech for Humans, Diebold Nixdorf, Unico e mais
  • Se o Brasil não organizar seus dados culturais, outro fará isso por nós, alerta Jorge Brivilati
  • CBYK nomeia Maurício Matsuda como novo CEO

Recent Posts

  • Notícias

83% dos CIOs já adiaram projetos estratégicos por restrições de orçamento

A pressão por controle de custos vem alterando a dinâmica das áreas de tecnologia nas…

7 dias ago
  • Estudos

Fintechs brasileiras captam US$ 2,77 bi em 2025 e entram em nova fase de maturidade

O mercado brasileiro de fintechs passou por uma transformação no perfil dos investimentos em 2025.…

7 dias ago
  • Notícias

Sioux aposta em IA e dados para nova fase de experiências digitais e expande atuação para a Europa

O avanço da inteligência artificial e o uso estratégico de dados vêm transformando a forma…

7 dias ago
  • Artigos

Qual é o risco do desenvolvimento de software com IA?

Por Ramon Ribeiro Quase metade do código produzido por assistentes de inteligência artificial contém vulnerabilidades…

1 semana ago
  • Notícias

Se o Brasil não organizar seus dados culturais, outro fará isso por nós, alerta Jorge Brivilati

Peça a um modelo de inteligência artificial que gere a imagem de uma cidade, sem…

1 semana ago
  • Notícias

Novos executivos da semana: Uncover, Tech for Humans, Diebold Nixdorf, Unico e mais

O IT Forum apresenta, semanalmente, os novos executivos e os principais anúncios de contratações, promoções e mudanças…

1 semana ago
All Rights ReservedView Non-AMP Version
  • L