Le hub de métadonnées

DOI : 10.35562/arabesques.526

p. 7-8

Outline

Text

Quand on parle de hub de métadonnées à l’Abes, il faut imaginer un atelier de retraitement en masse des données des éditeurs pour en tirer le maximum : en conserver toute la richesse, les enrichir encore et propager ces données de qualité dans différents environnements.

Réceptionner, déballer, examiner

Dans le cadre d’Istex1, nous recevons des fichiers XML très riches qui contiennent à la fois les métadonnées et le document. Chaque fichier correspond à un article de revue ou à un chapitre de livre : un niveau de granularité plus fin que celui du Sudoc. Ce fichier XML est réputé conforme à un vocabulaire XML, formalisé dans une DTD2. Ce vocabulaire est souvent propriétaire, mais, pour les articles, il est de plus en plus souvent conforme à Jats3, format initié par la National Library of Medicine (NLM) – Bibliothèque nationale de médecine américaine. Cela fait bien nos affaires.

Pourtant, la DTD ne nous suffit pas. Nous voulons en savoir plus sur le contenu de ces fichiers XML. D’abord, à partir d’un échantillon de 50 000 fichiers, nous listons tous les chemins (Xpath) présents dans les fichiers livrés. En effet, une DTD peut prévoir des chemins qui ne sont jamais suivis. Inutile alors de les modéliser en RDF.

Ensuite, pour chaque chemin, nous listons les valeurs distinctes qu’il contient et leur nombre d’occurrences. Par exemple, pour un champ sujet, ces facettes permettent de voir rapidement s’il s’agit de mots clés ou d’un vocabulaire contrôlé.

Enfin, pour des requêtes complexes, il reste possible d’interroger la totalité du corpus chargé dans une base XML (requête SQL/Xpath ou Xquery).

Modéliser et convertir en RDF

Grâce à cette radiographie précise des données XML livrées par l’éditeur, la modélisation et la conversion en RDF sont facilitées. Sauf exception (normalisation des dates ou des codes langue, par exemple), lors de cette opération, on ne modifie pas les données d’origine. Mais le simple fait de passer les données en RDF oblige à les rentrer dans un cadre conceptuel explicite. Au lieu d’une arborescence XML qui n’a guère de signification en soi, on se retrouve avec un réseau d’entités : œuvresfrbr, manifestationsfrbr, personnes, organismes, sujets, collections, etc. De surcroît, les différentes DTD convergent vers un modèle unique. Pourtant, face à une information atypique ou spécifique à un éditeur, la souplesse de RDF permet d’inventer des propriétés ad hoc, histoire de ne rien perdre des données d‘origine.

Enrichir les données RDF

C’est seulement dans la base RDF que vont s’opérer les enrichissements, c’est-à-dire des apports successifs de nouvelles couches d’information, sous la forme de triplets RDF qui s’ajoutent et se connectent aux triplets d’origine.

Dans le cas de Springer, les données sur les auteurs sont assez riches (nom, titres, affiliations, mail) mais on aimerait associer l’auteur à un identifiant, IdRef mais pas seulement (ISNI, Viaf, Orcid, etc.). Pour ce faire, on emploie deux types de moyens : soit on « dérive » cette information d’une autre source (Sudoc et ses identifiants IdRef, Worldcat et ses identifiants LC4 – ou Viaf, Orcid) ; soit on « calcule » un alignement grâce aux algorithmes de Qualinca5. Voilà ce que cela donne :

<http://hub.abes.fr/springerB/ebook/3540113185/w> vivo:relatedBy
<http://hub.abes.fr/springerB/ebook/3540113185/authorship/1> .

<http://hub.abes.fr/springerB/ebook/3540113185/authorship/1> vivo:relates
<http://hub.abes.fr/springerB/ebook/3540113185/kenkrevasudevm> .

<http://hub.abes.fr/springerB/ebook/3540113185/kenkrevasudevm> owl:sameAs
<http://www.idref.fr/11962558X/id>.

Toujours chez Springer, tous les chapitres et tous les articles sont indexés au moyen d’un vocabulaire contrôlé maison. Nous avons nous-mêmes établi une correspondance avec les concepts de LCSH (Library of Congress Subject Headings, autorités de la Bibliothèque du Congrès) et de Rameau (répertoire d’autorités de la Bibliothèque Nationale de France, donc en français). Cette opération intellectuelle est délicate et coûteuse, mais le jeu en valait la chandelle étant donné les bénéfices : un millier de concepts alignés pour indexer correctement des centaines de milliers de documents. Cette indexation ne vaut pas celle d‘un catalogueur, mais elle aurait nécessité une quantité de travail humain sans commune mesure.

<http://hub.abes.fr/springerB/ebook/3540113185/w> hub:classification
<http://hub.abes.fr/springer/ebooks/3540113185/concept/P21050> .

<http://hub.abes.fr/springer/ebooks/3540113185/concept/P21050> skos:exactMatch
<http://hub.abes.fr/springer/concept/P21050> .

<http://hub.abes.fr/springer/concept/P21050> skos:exactMatch
<http://id.loc.gov/authorities/subjects/sh85134783> .

<http://hub.abes.fr/springer/concept/P21050> skos:exactMatch
<http://data.bnf.fr/ark:/12148/cb11933671c>.

Redistribuer

Un hub est le contraire d’un cul-de-sac. Ses données, d’origine ou non, doivent en sortir pour alimenter tous les outils qu’utilisent les bibliothèques et surtout leurs usagers.

Il s’agit d’abord du Sudoc : le hub injecte dans celui-ci des métadonnées correspondant au niveau ebook ou revue - mais ni les chapitres, ni les articles. Les notices créées ou enrichies par le hub sont ensuite encore améliorées par les catalogueurs, notamment dans le cadre du dispositif « Cercles »6.

A terme, ces métadonnées seront également récupérées dans les outils de découverte. Une expérimentation est actuellement en cours autour des données acquises dans le cadre du programme Istex. Les enrichissements sont également versés dans le moteur de recherche de l’API Istex, developpée par l’Inist.

Enfin ces métadonnées RDF ont naturellement vocation à contribuer à cet immense réservoir de données ouvertes et liées qu’est le web de données… en attendant que tous les éditeurs le fassent, ou quand ils le font, pour y ajouter notre grain de sel, à savoir nos enrichissements.

Mettre nos données en réseau – un démonstrateur

Le 16 mai 2016, l’Abes a mis en ligne une base de données RDF, interrogeable en SPARQL. Il ne s’agit pas d’un nouveau service, mais d’un démonstrateur, défense et illustration pédagogique d’une approche « web sémantique » de l’interopérabilité des données de l’IST. Cette base agrège toutes sortes de données hétérogènes, qui sont exploitées dans des études de cas publiées sur Punktokomo, le blog technique de l’Abesa :

• Nature en VOSTFR = Interroger les articles de la revue Nature en MeSH et en Français
• Les revues d’Oxford UP et la classification JEL (économie) = Interroger les articles d’une revue d’économie au moyen d’un thesaurus spécialisé multilingue
• Les ebooks Springer, IdRef, RAMEAU, Dewey = enrichir les métadonnées d’ebooks et de chapitres fournies par l’éditeur Springer
• Le même auteur dans IdRef, VIAF, HAL, Persée, etc. = consolider la production scientifique d’un chercheur grâce aux référentiels de personnes
• Mapping entre structures de recherche de Paris 4 : IdRef/RNSR/HAL = identifier un laboratoire dans différents référentiels
• Matrice des fascicules pour conservation partagée = générer un tableau de tous les fascicules d’une revue, grâce aux métadonnées d’articles
• Le bouquet des ebooks Dalloz = se localiser sous un bouquet, pour exemplariser les ebooks qui le composent
• La fédération a de l’avenir = lancer une recherche SPARQL qui attaque deux bases différentes.

Chaque étude de cas correspond à un billet de blog, qui peut être commenté.
Le premier billet introduit la série. Le second liste les données agrégées. Le troisième présente les choix de modélisation que nous avons retenus.

SPARQL endpoint :
https://lod.abes.fr/sparql
Interface de recherche full text et de navigation :
https://lod.abes.fr/fct

a. https://punktokomo.abes.fr/2016/05/16/mettre-nos-donnees-en-reseau-un-demonstrateur-1-introduction/

Image

Photo Alexandru Iuilian

1 Le projet Istex (Initiative d’excellence de l’information scientifique et technique) s’inscrit dans le programme « Investissements d’avenir »

2 Document type definition (DTD), ou définition de type de document, est un document permettant de décrire un modèle de document (XML par exemple).

3 Format XML : Journal Article Tag Suite

4 Library of Congress (Bibliothèque du Congrès).

5 Projet de recherche qui s’intéresse à la « qualité et l’interopérabilité de grands catalogues documentaires ». Lire l’article du n° 77 d’Arabesques

6 Correction et Enrichissement par le Réseau de Corpus de l’Enseignement Supérieur http://www.abes.fr/Sudoc/Produire-dans-le-Sudoc/

Notes

1 Le projet Istex (Initiative d’excellence de l’information scientifique et technique) s’inscrit dans le programme « Investissements d’avenir », initié par le ministère de l’Enseignement Supérieur et de la Recherche. Ce projet ANR‑10‑IDEX‑0004‑02 est porté par quatre partenaires : le CNRS, l’Abes, Couperin et l’Université de Lorraine agissant en son nom propre et pour le compte de la CPU.

2 Document type definition (DTD), ou définition de type de document, est un document permettant de décrire un modèle de document (XML par exemple).

3 Format XML : Journal Article Tag Suite

4 Library of Congress (Bibliothèque du Congrès).

5 Projet de recherche qui s’intéresse à la « qualité et l’interopérabilité de grands catalogues documentaires ». Lire l’article du n° 77 d’Arabesques : « Faire le lien, un besoin vital », Aline Le Provost. http://www.abes.fr/Arabesques/Arabesques-n-77

6 Correction et Enrichissement par le Réseau de Corpus de l’Enseignement Supérieur http://www.abes.fr/Sudoc/Produire-dans-le-Sudoc/CERCLES-Sudoc-Dispositif-Qualite

Illustrations

Photo Alexandru Iuilian

References

Bibliographical reference

Yann Olivier, « Le hub de métadonnées », Arabesques, 83 | 2016, 7-8.

Electronic reference

Yann Olivier, « Le hub de métadonnées », Arabesques [Online], 83 | 2016, Online since 19 décembre 2019, connection on 22 septembre 2021. URL : https://publications-prairial.fr/arabesques/index.php?id=526

Author

Yann Olivier

Chef de projet Hub de métadonnées, Abes

nicolas@abes.fr

Author resources in other databases

By this author

Copyright

CC BY-ND 2.0