Desduplicação no storage esconde riscos

Publicado: 21/11/2012 às 17:05

Leitura 3 minutos

Eu frequentemente sou solicitado para rankear capacidades de desduplicação de fabricantes de storage primário. Este é um ambiente perigoso e, claramente, subjetivo. Mas eu posso fornecer algumas ideias de como medir as habilidades de cada fornecedor , de forma que você possa pesar essas ideias em ordem de importância para o seu data center. Primeiro, no entanto, precisamos discutir os riscos de desduplicação.

Assine a Newsletter do IT Web

As melhores notícias de tecnologia B2B

Acompanhe todas as novidades diretamente na sua caixa de entrada

Siga o IT Web no Twitter

Curta, no Facebook, a Fan Page do IT Web

Toda a desduplicação de dados traz algum risco. A tecnologia trabalha por segmentação de entrada de dados e criando uma ID para cada segmento. Essas IDs são, então, comparadas com outras IDs. Se há uma redundância, esse dado sobreposto não é armazenado – no entanto, é estabelecido uma ligação entre o segmento original, o que resulta na economia de capacidade.

Todas as IDs são armazenadas em uma tabela de metadados. Essa tabela é essencialmente um roadmap, mostrando quais segmentos pertencem a cada dado e podem ser reorganizados quando solicitados. Se esta tabela está, de alguma forma, corrompida, você praticamente perde o mapa de seus dados. Apesar de o mapa ainda estar lá, você não consegue acessá-lo – pelo menos não tão facilmente.

O tamanho das tabelas de metadados é uma preocupação dos sistemas de desduplicação. Cada novo segmento representa a entrada de uma nova tabela, e cada segmento redundante representa como o ramo de uma árvore. O tamanho da tabela pode causar problemas, especificamente quando você considera acelerar o acesso ou sua atualização.

Pense na tabela de metadados como uma base de dados relativamente simples que precisa estar apta a ser atualizada e pesquisada de forma rápida. Isso é especialmente importante em armazenamento primário porque você não quer que o desempenho seja impactado enquanto a tabela está sendo pesquisada para encontrar redundância. Para evitar esse problema, a maior parte dos fabricantes insere as tabelas em RAM.

No entanto, no caso de um grande sistema de storage primário que embarca dúzias – ou até mesmo centenas – de terabytes de informação, a tabela inteira simplesmente não cabe na memória. Para evitar esse problema, a tabela é dividida entre RAM e disco.

O problema é que um processo de desduplicação não é amigável ao sistema de cache, onde um método first-in first-out de usar RAM iria gerar taxas viáveis de acerto. Para solucionar isso, alguns fabricantes desenvolvem suas tabelas em flash, outros processam a desduplicação como parte de um processo não realizado em tempo real, em vez de performar a função em tempo real.

Sobre o Autor

Editorial IT Forum 365

Ver publicações deste autor

Desduplicação no storage esconde riscos

Mais lidas

Novos executivos da semana: Uncover, Tech for Humans, Diebold Nixdorf, Unico e mais

IA muda entrevistas para programadores e força revisão dos processos de contratação

Fintechs brasileiras captam US$ 2,77 bi em 2025 e entram em nova fase de maturidade

W-Aura busca parcerias

Sobre o Autor

Editorial IT Forum 365

Notícias relacionadas

83% dos CIOs já adiaram projetos estratégicos por restrições de orçamento

Fintechs brasileiras captam US$ 2,77 bi em 2025 e entram em nova fase de maturidade

Sioux aposta em IA e dados para nova fase de experiências digitais e expande atuação para a Europa

Se o Brasil não organizar seus dados culturais, outro fará isso por nós, alerta Jorge Brivilati