Datasets do LOD (Linked Open Data) na área da Ciência da Vida

Publicado: 14/08/2013 às 09:51

Leitura 2 minutos

Datasets do LOD (Linked Open Data) na área da Ciência da Vida

Dando continuidade ao post anterior, vimos que em 2007, Tim-Berners Lee, juntamente com outros colaboradores, propõem os dados abertos vinculados (LOD ? Linked Open Data).

Cada Dataset do LOD agrega e interliga um conjunto na casa de bilhões de triplas RDFs (Resource Description Framework) para todos os domínios e áreas do conhecimento.

As melhores notícias de tecnologia B2B

Acompanhe todas as novidades diretamente na sua caixa de entrada

Como vimos também, esta nuvem de dados (LOD), na época de sua criação, contava com 12 datasets. A última atualização, em 2011, eram 295. O crescimento está sendo exponencial.

Alguns exemplos de datasets: Conhecimentos gerais (DBPedia – o dataset do Wikipedia); Entretenimento (BBC Music, etc.); Doenças (Diseasome, etc.); Bulas de Drogas (DailyMed); Censo EUA (US Census); Dados Governamentais (data.gov.uk, etc.), dentre outros datasets.

O número de datasets da ?Life Science?, segundo Bizer, Jentzsch e Cyganiak (2012) é de 41 (do total de 295), com mais de três bilhões de triplas. Acima deste número, encontram-se apenas 87 datasets de publicações e 49 datasets de dados governamentais. Abaixo está descrito alguns dos principais datasets da ?Ciência da Vida?:

DailyMed: publicado pela Biblioteca Nacional de Medicina, fornece informações de qualidade sobre drogas comercializadas;
Diseasome: rede pública de mais de 4.300 doenças e Genes ligados a distúrbios;
DrugBank: repositório de quase 5.000 moléculas e informações detalhadas sobre drogas;
Gene Ontology: ou GO, é uma iniciativa importante de bioinformática para unificar a representação dos atributos dos Genes e dos atributos do produto dos Genes de todas as espécies;
InterPro: Banco de dados de famílias de proteínas, com a iniciativa de possuir as mais novas proteínas;
SIDER: contém informações sobre drogas comercializadas e seus efeitos colaterais. As informações são extraídas de documentos públicos e de bulas.
STITCH: contém informações sobre produtos químicos e proteínas, bem como suas interações e links;
TaxonConcept: as espécies são conhecidas por muitos nomes diferentes. Esta base de conhecimento tem URIs para conceitos das espécies.
Dentre outras.

Referência

BIZER, C.; JENTZSCH, A.; CYGANIAK, R. State of the LOD Cloud. 2011. Disponível em <http://www4.wiwiss.fu-berlin.de/lodcloud/state/>. Acesso em: 04 jul. 2012.

Sobre o Autor

Fernando Zaidan

Construiu uma sólida carreira de 40 anos na área da Gestão da TI, focando na informação e no conhecimento, na estratégia, nos sistemas, na inovação, nos processos e projetos. Consultor, palestrante, educador, pesquisador e escritor. Doutor em Ciência da Informação, Mestre em Administração, Bacharel em Ciência da Computação e Analista de Sistemas. Coordenador, professor e pesquisador de pós-graduações Lato e Stricto Sensu. Criador do Treinamento de Ideação e Priorização de Projetos e do KMCanvas.

Ver publicações deste autor