All Rights ReservedView Non-AMP Version
IT Forum
  • Homepage
  • Notícias
Categories: Notícias

Como o site americano de genealogia online, Ancestry.com, administra gerações de Big Data

As empresas costumam usar – ou usam excessivamente – o termo “big data” para descrever todos os tipos de produtos e serviços relacionados a dados, mas a palavra da moda se aplica no caso do Ancestry.com, site americano que funciona como serviço de genealogia que ajuda as pessoas a encontrarem suas raízes familiares e foi comprado por 1,6 bilhões de dólares no ano passado por um fundo europeu.

Há pouco mais de um ano, o site estava administrando cerca de 4 petabytes de dados, incluindo mais de 40 mil registros de nascimento, censo, óbito, imigração e documentos militares, bem como fotos, resultados dos testes de DNA e outras informações. Hoje, a coleção quintuplicou e soma mais de 200.000 registros, de modo que os dados armazenados no Ancestry aumentaram de 4 petabytes para 10 petabytes.

As melhores notícias de tecnologia B2B
Acompanhe todas as novidades diretamente na sua caixa de entrada

De acordo com, diretor sênior de engenharia do Ancestry.com, Bill Yetman, lidar com essa grande explosão de dados foi um desafio para a empresa. “Nós medimos cada passo em nosso pipeline”, afirmou Yetman. “Começamos com algoritmos acadêmicos que as pessoas estão usando em universidades e eles funcionam muito bem em escalas menores.”

No entanto, ele explica que esses algoritmos foram divididos à medida que o banco de dados ficou cada vez maior. “Há um algoritmo muito específico que usamos em combinar o DNA. Chama-se Germline e foi criado por cientistas da Universidade de Columbia.”

Para analisar o seu arsenal crescente de dados de DNA, a empresa teve que reimplementar o Germline usando Hadoop e HBase. Esse processo envolveu o armazenamento de dados no HBase e, em seguida, a utilização de duas funções de mapeamento para executar comparações em paralelo. “Usamos duas etapas de MapReduce e depois utilizamos HBase para manter os resultados, o que torna mais fácil para fazer as comparações de DNA. Se não pudéssemos executar essas coisas em paralelo, não conseguiríamos fazê-lo tão rápidamente.”

A expansibilidade prometida pelo Hadoop também ajudou o Ancestry a gerenciar seu crescimento. “Se eu preciso melhorar o meu desempenho, posso escalar horizontalmente”, comentou Yetman . “Basta adicionar mais nós ao cluster e conseguimos lidar com o crescimento.”

O crescimento futuro, no entanto, vai exigir mais inovação para manter tudo isso fluindo normalmente. “Você não pode simplesmente achar que se já conseguiu superar essa montanha de 200.000 dados e que vai fazer o mesmo para 5 milhões. “Sabemos que virão diversos desafios ao longo do caminho e teremos que olhar com atenção para cada um.?

Obviamente, o desempenho do hardware deve ser monitorado de perto. “Nós temos que acompanhar a memória em cada nó, como a estamos usando e como estamos usando a CPU.”

O Ancestry.com também está no processo de otimização da implementação do Germline para reduzir significativamente seu uso de memória, e também considera uma associação com provedores de nuvem para aumentar sua capacidade de processamento.

A opção da nuvem ganhou credibilidade quando Ancestry.com recentemente atualizou seu algoritmo a realização de teste de etnias. “Tivemos que voltar a esses 200 mil pessoas para executar novamente sua etnia”, acrescentou o especialista. “Fizemos isso com máquinas em nosso data center. Mas hardware local não será suficiente se número de usuários subir para 500.000 até 1 milhão.

Ancestry.com está avaliando vários provedores de nuvem, mas o executivo reconhece que as questões de privacidade adicionam um grau de complexidade para o movimento. “É algo complicado, pois dados de DNA são muito sensíveis. Isso é uma das coisas com que a empresa é extremamente cuidadosa”

Uma possível solução: “Estou olhando para a nuvem como um lugar para fazer esses cálculos”, disse Yetman. Mas em vez de deixar os dados na nuvem, ele menciona que pode “puxar tudo de volta” e armazenar localmente para evitar preocupações com a privacidade dos clientes.

 

Next NSA utiliza cookies do Google para rastrear alvos de espionagem »
Previous « Cirurgia robótica: da Vinci versus o ideal
Share
Published by
Redação
13 anos ago

    Related Post

  • UE ordena que Meta reabra WhatsApp a chatbots rivais
  • IPO da SpaceX chega ao mercado como aposta de US$ 1,75 trilhão em IA, não em foguetes
  • IA muda jornada de compra e devolve relevância aos sites de avaliação B2B, diz Forrester

Recent Posts

  • Artigos

Com a IA, setor de saúde vive revolução que o marketing digital proporcionou há dez anos

por Eduardo Barros A transformação da inteligência artificial (IA) nos negócios lembra o que aconteceu…

22 horas ago
  • Inovação

Snowflake registra crescimento de 33% na receita e eleva projeções para o ano fiscal de 2027

A Snowflake anunciou os resultados financeiros do primeiro trimestre do ano fiscal de 2027, encerrado…

1 dia ago
  • Notícias

UE ordena que Meta reabra WhatsApp a chatbots rivais

A Comissão Europeia determinou que a Meta reestabeleça o acesso de assistentes de inteligência artificial…

2 dias ago
  • Notícias

IPO da SpaceX chega ao mercado como aposta de US$ 1,75 trilhão em IA, não em foguetes

As negociações com as ações da SpaceX têm início nesta quinta-feira, 12, em uma oferta…

2 dias ago
  • Notícias

IA muda jornada de compra e devolve relevância aos sites de avaliação B2B, diz Forrester

A ascensão dos agentes de inteligência artificial (IA) está criando uma oportunidade para plataformas de…

2 dias ago
  • Notícias

Prêmio Executivo de TI do Ano 2026: conheça os critérios de avaliação

Continuam abertas as inscrições para o prêmio Executivo de TI do Ano 2026. A iniciativa,…

2 dias ago
All Rights ReservedView Non-AMP Version
  • L