Como o site americano de genealogia online, Ancestry.com, administra gerações de Big Data

Publicado:

Leitura 4 minutos

Como o site americano de genealogia online, Ancestry.com, administra gerações de Big Data

As empresas costumam usar – ou usam excessivamente – o termo “big data” para descrever todos os tipos de produtos e serviços relacionados a dados, mas a palavra da moda se aplica no caso do Ancestry.com, site americano que funciona como serviço de genealogia que ajuda as pessoas a encontrarem suas raízes familiares e foi comprado por 1,6 bilhões de dólares no ano passado por um fundo europeu.

Há pouco mais de um ano, o site estava administrando cerca de 4 petabytes de dados, incluindo mais de 40 mil registros de nascimento, censo, óbito, imigração e documentos militares, bem como fotos, resultados dos testes de DNA e outras informações. Hoje, a coleção quintuplicou e soma mais de 200.000 registros, de modo que os dados armazenados no Ancestry aumentaram de 4 petabytes para 10 petabytes.

As melhores notícias de tecnologia B2B
Acompanhe todas as novidades diretamente na sua caixa de entrada

De acordo com, diretor sênior de engenharia do Ancestry.com, Bill Yetman, lidar com essa grande explosão de dados foi um desafio para a empresa. “Nós medimos cada passo em nosso pipeline”, afirmou Yetman. “Começamos com algoritmos acadêmicos que as pessoas estão usando em universidades e eles funcionam muito bem em escalas menores.”

No entanto, ele explica que esses algoritmos foram divididos à medida que o banco de dados ficou cada vez maior. “Há um algoritmo muito específico que usamos em combinar o DNA. Chama-se Germline e foi criado por cientistas da Universidade de Columbia.”

Para analisar o seu arsenal crescente de dados de DNA, a empresa teve que reimplementar o Germline usando Hadoop e HBase. Esse processo envolveu o armazenamento de dados no HBase e, em seguida, a utilização de duas funções de mapeamento para executar comparações em paralelo. “Usamos duas etapas de MapReduce e depois utilizamos HBase para manter os resultados, o que torna mais fácil para fazer as comparações de DNA. Se não pudéssemos executar essas coisas em paralelo, não conseguiríamos fazê-lo tão rápidamente.”

A expansibilidade prometida pelo Hadoop também ajudou o Ancestry a gerenciar seu crescimento. “Se eu preciso melhorar o meu desempenho, posso escalar horizontalmente”, comentou Yetman . “Basta adicionar mais nós ao cluster e conseguimos lidar com o crescimento.”

O crescimento futuro, no entanto, vai exigir mais inovação para manter tudo isso fluindo normalmente. “Você não pode simplesmente achar que se já conseguiu superar essa montanha de 200.000 dados e que vai fazer o mesmo para 5 milhões. “Sabemos que virão diversos desafios ao longo do caminho e teremos que olhar com atenção para cada um.?

Obviamente, o desempenho do hardware deve ser monitorado de perto. “Nós temos que acompanhar a memória em cada nó, como a estamos usando e como estamos usando a CPU.”

O Ancestry.com também está no processo de otimização da implementação do Germline para reduzir significativamente seu uso de memória, e também considera uma associação com provedores de nuvem para aumentar sua capacidade de processamento.

A opção da nuvem ganhou credibilidade quando Ancestry.com recentemente atualizou seu algoritmo a realização de teste de etnias. “Tivemos que voltar a esses 200 mil pessoas para executar novamente sua etnia”, acrescentou o especialista. “Fizemos isso com máquinas em nosso data center. Mas hardware local não será suficiente se número de usuários subir para 500.000 até 1 milhão.

Ancestry.com está avaliando vários provedores de nuvem, mas o executivo reconhece que as questões de privacidade adicionam um grau de complexidade para o movimento. “É algo complicado, pois dados de DNA são muito sensíveis. Isso é uma das coisas com que a empresa é extremamente cuidadosa”

Uma possível solução: “Estou olhando para a nuvem como um lugar para fazer esses cálculos”, disse Yetman. Mas em vez de deixar os dados na nuvem, ele menciona que pode “puxar tudo de volta” e armazenar localmente para evitar preocupações com a privacidade dos clientes.

 

Notícias relacionadas

Ver mais Seta para direita