Publicado:
Leitura 3 minutos
Eu frequentemente sou solicitado para rankear capacidades de desduplicação de fabricantes de storage primário. Este é um ambiente perigoso e, claramente, subjetivo. Mas eu posso fornecer algumas ideias de como medir as habilidades de cada fornecedor , de forma que você possa pesar essas ideias em ordem de importância para o seu data center. Primeiro, no entanto, precisamos discutir os riscos de desduplicação.
Curta, no Facebook, a Fan Page do IT Web
Toda a desduplicação de dados traz algum risco. A tecnologia trabalha por segmentação de entrada de dados e criando uma ID para cada segmento. Essas IDs são, então, comparadas com outras IDs. Se há uma redundância, esse dado sobreposto não é armazenado – no entanto, é estabelecido uma ligação entre o segmento original, o que resulta na economia de capacidade.
Todas as IDs são armazenadas em uma tabela de metadados. Essa tabela é essencialmente um roadmap, mostrando quais segmentos pertencem a cada dado e podem ser reorganizados quando solicitados. Se esta tabela está, de alguma forma, corrompida, você praticamente perde o mapa de seus dados. Apesar de o mapa ainda estar lá, você não consegue acessá-lo – pelo menos não tão facilmente.
O tamanho das tabelas de metadados é uma preocupação dos sistemas de desduplicação. Cada novo segmento representa a entrada de uma nova tabela, e cada segmento redundante representa como o ramo de uma árvore. O tamanho da tabela pode causar problemas, especificamente quando você considera acelerar o acesso ou sua atualização.
Pense na tabela de metadados como uma base de dados relativamente simples que precisa estar apta a ser atualizada e pesquisada de forma rápida. Isso é especialmente importante em armazenamento primário porque você não quer que o desempenho seja impactado enquanto a tabela está sendo pesquisada para encontrar redundância. Para evitar esse problema, a maior parte dos fabricantes insere as tabelas em RAM.
No entanto, no caso de um grande sistema de storage primário que embarca dúzias – ou até mesmo centenas – de terabytes de informação, a tabela inteira simplesmente não cabe na memória. Para evitar esse problema, a tabela é dividida entre RAM e disco.
O problema é que um processo de desduplicação não é amigável ao sistema de cache, onde um método first-in first-out de usar RAM iria gerar taxas viáveis de acerto. Para solucionar isso, alguns fabricantes desenvolvem suas tabelas em flash, outros processam a desduplicação como parte de um processo não realizado em tempo real, em vez de performar a função em tempo real.
Redação
6 dias atrás
Redação
6 dias atrás
Redação
6 dias atrás
Pamela Sousa
6 dias atrás