All Rights ReservedView Non-AMP Version
Preprod IT Forum
  • Homepage
  • Plataformas
Notícias

Hadoop: o que é e qual sua relação com big data

hadoop

Hadoop é um dos termos que fazem parte do “vocabulário” das tecnologias emergentes. Mas afinal, o que é Hadoop?

De forma simples, ele pode ser descrito como um conjunto de programas e procedimentos open source – disponíveis de graça para que todos usem e modifiquem, que servem como estrutura para operações de dados.

As melhores notícias de tecnologia B2B
Acompanhe todas as novidades diretamente na sua caixa de entrada

A natureza flexível de um sistema Hadoop permite que as empresas possam adicionar ou modificar seu sistema de dados à medida que suas necessidades mudam, usando peças baratas e prontamente disponíveis de qualquer fornecedor de TI.

A Mastertech, startup que prepara profissionais do futuro, explica passo a passo o que é o conceito, qual sua relação com o big data, bem como seus principais módulos.

Como funciona

Atualmente, o Hadoop é o sistema mais usado para fornecer armazenamento e processamento de dados em hardware “commodity”: sistemas relativamente baratos e de prateleira, em vez de sistemas caros e sob medida para o trabalho em mãos.

Quase todos os grandes nomes on-line o utilizam e, como qualquer um é livre para alterá-lo para seus próprios propósitos, modificações feitas no software por engenheiros especializados da Amazon e Google, por exemplo, são realimentadas à comunidade de desenvolvimento, onde são freqüentemente usados ​​para melhorar o produto “oficial”. Essa forma de desenvolvimento colaborativo entre usuários voluntários e comerciais é uma característica fundamental do software de código aberto.

Em seu estado “bruto”, usando os módulos básicos fornecidos aqui pelo Apache, o Hadoop pode ser muito complexo, mesmo para profissionais de TI. É por isso que várias versões comerciais foram desenvolvidas, como a Cloudera, que simplifica a tarefa de instalar e executar um sistema Hadoop, bem como oferecer serviços de treinamento e suporte.

Graças à natureza flexível do sistema, as empresas podem expandir e ajustar suas operações de análise de dados à medida que seus negócios se expandem. E o apoio e entusiasmo da comunidade de código aberto por trás disso levou a grandes avanços no sentido de tornar a análise de big data mais acessível para todos.

Qual a relação entre Hadoop e big data?

Mais comumente, o Hadoop é usado para processar cargas de trabalho de big data por ser altamente escalável. Para aumentar a capacidade de processamento do cluster do Hadoop, é possível adicionar mais servidores com os recursos de CPU e memória necessários precisa para atender às necessidades.

O Hadoop proporciona um alto nível de durabilidade e disponibilidade, enquanto continua processando em paralelo cargas de trabalho analíticas computacionais. A combinação de disponibilidade, durabilidade e escalabilidade de processamento torna o Hadoop a escolha ideal para cargas de trabalho de maior número de dados. Algumas vantagens do Hadoop são:

  • Velocidade e agilidade maiores
  • Complexidade administrativa reduzida
  • Integração com outros serviços na nuvem
  • Disponibilidade e recuperação de desastres melhoradas
  • Capacidade flexível

Quatro módulos do Hadoop

O Hadoop é composto de módulos, sendo que cada um deles carrega uma tarefa essencial para sistemas de computador desenhados para a análise de dados. Esses módulos são:

1. Distribuição de sistemas de arquivo

Esse módulo é um dos mais importantes pois permite que os dados sejam armazenados em um formato simples e acessível, entre um grande número de dispositivos de armazenamento linkados. O “sistema de arquivos” é o método usado por um computador para armazenar dados e pode ser encontrado e usado. Normalmente, isso é determinado pelo sistema operacional do computador, no entanto, um sistema Hadoop usa seu próprio sistema de arquivos que fica “acima” do sistema de arquivos do computador host, o que significa que pode ser acessado usando qualquer computador com sistema operacional compatível.

2. MapReduce

MapReduce é nomeado a partir das duas operações básicas que este módulo realiza: ler dados do banco de dados, colocando-os em um formato adequado para análise (mapa) e realizar operações matemáticas, ou seja, contando o número de homens com mais de 30 anos em um banco de dados de clientes, por exemplo (redução). É o MapReduce que garante as ferramentas para explorar dados de diversas formas.

3. Hadoop Comum

O outro módulo é o Hadoop Common, que fornece as ferramentas (em Java) necessárias para os sistemas de computador do usuário (Windows, Unix ou qualquer outro) lerem dados armazenados no sistema de arquivos do Hadoop.

4. YARN

O módulo final é o YARN, que gerencia os recursos dos sistemas que armazenam os dados e executam a análise.

Diversos outros procedimentos, bibliotecas ou recursos passaram a ser considerados parte do “framework” do Hadoop nos últimos anos, mas o Hadoop Distributed File System, o Hadoop MapReduce, o Hadoop Common e o Hadoop YARN são os quatro principais.

Next Uso de acessórios não originais é responsável por 50% dos reparos »
Previous « Como escolher corretamente um sistema ERP para pequenas empresas

View Comments

Leave a Comment
Share
Published by
Redação
Tags: big data;Hadoop
8 anos ago

    Related Post

  • Novos executivos da semana: Uncover, Tech for Humans, Diebold Nixdorf, Unico e mais
  • Se o Brasil não organizar seus dados culturais, outro fará isso por nós, alerta Jorge Brivilati
  • CBYK nomeia Maurício Matsuda como novo CEO

Recent Posts

  • Notícias

83% dos CIOs já adiaram projetos estratégicos por restrições de orçamento

A pressão por controle de custos vem alterando a dinâmica das áreas de tecnologia nas…

6 dias ago
  • Estudos

Fintechs brasileiras captam US$ 2,77 bi em 2025 e entram em nova fase de maturidade

O mercado brasileiro de fintechs passou por uma transformação no perfil dos investimentos em 2025.…

6 dias ago
  • Notícias

Sioux aposta em IA e dados para nova fase de experiências digitais e expande atuação para a Europa

O avanço da inteligência artificial e o uso estratégico de dados vêm transformando a forma…

6 dias ago
  • Artigos

Qual é o risco do desenvolvimento de software com IA?

Por Ramon Ribeiro Quase metade do código produzido por assistentes de inteligência artificial contém vulnerabilidades…

7 dias ago
  • Notícias

Se o Brasil não organizar seus dados culturais, outro fará isso por nós, alerta Jorge Brivilati

Peça a um modelo de inteligência artificial que gere a imagem de uma cidade, sem…

7 dias ago
  • Notícias

Novos executivos da semana: Uncover, Tech for Humans, Diebold Nixdorf, Unico e mais

O IT Forum apresenta, semanalmente, os novos executivos e os principais anúncios de contratações, promoções e mudanças…

7 dias ago
All Rights ReservedView Non-AMP Version
  • L