VMware lança projeto open source para levar Hadoop a ambientes virtuais

Publicado:

Leitura 4 minutos

VMware lança projeto open source para levar Hadoop a ambientes virtuais

A VMware  anunciou o lançamento do Serengeti,  um projeto open source para promover mudanças no Hadoop, de forma que ele rode da melhor forma tanto  em servidores virtuais quanto em físicos.  A empresa vai oferecer o código resultante de forma aberta sob a licença Apache 2.0, e contribuir com a extensão do código para o projeto core, que é parte da Fundação Apache de Software.
O framework Hadoop se tornou rapidamente a principal ferramenta de manipulação do Big Data. Seu código open source foi inicialmente desenvolvido por Doug Cutting, atualmente arquiteto na Cloudera, uma fabricante que também utiliza essa padronização.

 

As melhores notícias de tecnologia B2B
Acompanhe todas as novidades diretamente na sua caixa de entrada

Em sua maior parte, o Hadoop requer um cluster dedicado de servidor para realizar seu trabalho, e esta é uma forma muito cara para a maioria dos trabalhos de TI. Se ele pudesse rodar em um ambiente virtualizado, seria ativado e desativado de forma mais fácil, disse Fausto Ibarra, diretor sênior de produtos da VMware.

 

Em um ambiente virtual, seria mais fácil prever dois pontos de falha: NameNode e JobTracker. Se estiver no NameNode, o sistema congela quando há queda de cluster. Se ele estivesse rodando em um ambiente virtual, a perda de servidor do NameNode  geraria um servidor duplicado, que seria ativado fora do disco, e o sistema voltaria. Da mesma forma, com um nó no JobTracker Hadoop, outro servidor essencial no cluster e outro ponto único de falha em um cluster físico.

Mas ele não pode ser colocado em um ambiente virtualizado sem tomar conhecimento que está trabalhando com máquinas virtuais. Quão consciente das máquinas virtuais está? ?Não muito?, disse Ibarra em uma entrevista. Ele mantém três cópias de dados então aquela cópia pode ser perdida, mas em um backup primário remanescente.

 

Tanto em configurações virtuais quanto físicas, isso representaria uma recolocação de cada cópia em diferentes servidores físicos, o que faria com que as três cópias fossem perdidas ao mesmo tempo se armazenadas em máquinas virtuais no mesmo host. Mas o Hadoop não consegue distinguir entre máquinas físicas e virtuais então não saberia como distribuir corretamente as cópias ao redor dos clusters.

 

Se apenas uma porção de dados por perdida, isso ainda pode representar o suficiente para congelar uma query complexa em um cluster de Hadoop.

 

Ao passo que o Hadoop pode ser usado em um ou dois projetos em uma companhia atualmente, ele se tornaria um dispositivo de computação de dados central, acessível a muitos usuários, se for executado em um ambiente virtualizado,  mais previsível e controlável. “Estamos permitindo o uso predominante do Hadoop dentro da empresa?, disse Ibarra.

 

A consciência da virtualização no Hadoop também poderia ser oferecida como um serviço de cloud público, continuou o especialista. Desenvolvedores VMware vão contribuir com o código para extender o Hadoop no projeto Serengeti, de forma que ele rode efetivamente em ambientes virtualizados. A mesma extensão será colocada à disposição no projeto Apache Hadoop, que produz a versão referencial para muitos usuários. A empresa também convida outros fabricantes de Hadoop, incluindo Cloudera, GreenPlum, Hortonworks, MapR, e IBM, para participar do projeto e fazer uso de suas extensões.

 

O projeto também pode ser embutido diretamente no Cloudera, Hortonworks, GreenPlum, entre outros, para incorporar as ferramentas aos sistemas, explicou o executivo. Desenvolvedores construindo um novo sistema baseado em Hadoop beneficiariam se ele rodasse em um ambiente virtualizado. Eles frequentemente precisam apenas de um cluster pequeno para iniciar o sistema, mas ao passo que isso começa a crescer, é necessário que eles aumentem esse cluster para continuar os trabalhos. Mais servidores virtuais seriam adicionados a clusters de Hadoop ao passo que as fontes virtualizadas fossem grandes o suficiente.

Saiba mais:

Microsoft lança SQL Server 2012 no Brasil, mas sem Hadoop completo

Hadoop e análises de dados

Vídeos “Big Ideas” : Desmistificando clusters e Hadoop

Notícias relacionadas

Ver mais Seta para direita