As empresas costumam usar – ou usam excessivamente – o termo “big data” para descrever todos os tipos de produtos e serviços relacionados a dados, mas a palavra da moda se aplica no caso do Ancestry.com, site americano que funciona como serviço de genealogia que ajuda as pessoas a encontrarem suas raízes familiares e foi comprado por 1,6 bilhões de dólares no ano passado por um fundo europeu.
Há pouco mais de um ano, o site estava administrando cerca de 4 petabytes de dados, incluindo mais de 40 mil registros de nascimento, censo, óbito, imigração e documentos militares, bem como fotos, resultados dos testes de DNA e outras informações. Hoje, a coleção quintuplicou e soma mais de 200.000 registros, de modo que os dados armazenados no Ancestry aumentaram de 4 petabytes para 10 petabytes.
De acordo com, diretor sênior de engenharia do Ancestry.com, Bill Yetman, lidar com essa grande explosão de dados foi um desafio para a empresa. “Nós medimos cada passo em nosso pipeline”, afirmou Yetman. “Começamos com algoritmos acadêmicos que as pessoas estão usando em universidades e eles funcionam muito bem em escalas menores.”
No entanto, ele explica que esses algoritmos foram divididos à medida que o banco de dados ficou cada vez maior. “Há um algoritmo muito específico que usamos em combinar o DNA. Chama-se Germline e foi criado por cientistas da Universidade de Columbia.”
Para analisar o seu arsenal crescente de dados de DNA, a empresa teve que reimplementar o Germline usando Hadoop e HBase. Esse processo envolveu o armazenamento de dados no HBase e, em seguida, a utilização de duas funções de mapeamento para executar comparações em paralelo. “Usamos duas etapas de MapReduce e depois utilizamos HBase para manter os resultados, o que torna mais fácil para fazer as comparações de DNA. Se não pudéssemos executar essas coisas em paralelo, não conseguiríamos fazê-lo tão rápidamente.”
A expansibilidade prometida pelo Hadoop também ajudou o Ancestry a gerenciar seu crescimento. “Se eu preciso melhorar o meu desempenho, posso escalar horizontalmente”, comentou Yetman . “Basta adicionar mais nós ao cluster e conseguimos lidar com o crescimento.”
O crescimento futuro, no entanto, vai exigir mais inovação para manter tudo isso fluindo normalmente. “Você não pode simplesmente achar que se já conseguiu superar essa montanha de 200.000 dados e que vai fazer o mesmo para 5 milhões. “Sabemos que virão diversos desafios ao longo do caminho e teremos que olhar com atenção para cada um.?
Obviamente, o desempenho do hardware deve ser monitorado de perto. “Nós temos que acompanhar a memória em cada nó, como a estamos usando e como estamos usando a CPU.”
O Ancestry.com também está no processo de otimização da implementação do Germline para reduzir significativamente seu uso de memória, e também considera uma associação com provedores de nuvem para aumentar sua capacidade de processamento.
A opção da nuvem ganhou credibilidade quando Ancestry.com recentemente atualizou seu algoritmo a realização de teste de etnias. “Tivemos que voltar a esses 200 mil pessoas para executar novamente sua etnia”, acrescentou o especialista. “Fizemos isso com máquinas em nosso data center. Mas hardware local não será suficiente se número de usuários subir para 500.000 até 1 milhão.
Ancestry.com está avaliando vários provedores de nuvem, mas o executivo reconhece que as questões de privacidade adicionam um grau de complexidade para o movimento. “É algo complicado, pois dados de DNA são muito sensíveis. Isso é uma das coisas com que a empresa é extremamente cuidadosa”
Uma possível solução: “Estou olhando para a nuvem como um lugar para fazer esses cálculos”, disse Yetman. Mas em vez de deixar os dados na nuvem, ele menciona que pode “puxar tudo de volta” e armazenar localmente para evitar preocupações com a privacidade dos clientes.
por Eduardo Barros A transformação da inteligência artificial (IA) nos negócios lembra o que aconteceu…
A Snowflake anunciou os resultados financeiros do primeiro trimestre do ano fiscal de 2027, encerrado…
A Comissão Europeia determinou que a Meta reestabeleça o acesso de assistentes de inteligência artificial…
As negociações com as ações da SpaceX têm início nesta quinta-feira, 12, em uma oferta…
A ascensão dos agentes de inteligência artificial (IA) está criando uma oportunidade para plataformas de…
Continuam abertas as inscrições para o prêmio Executivo de TI do Ano 2026. A iniciativa,…