Données liées ouvertes et référentiels publics : un changement de paradigme pour la recherche en sciences humaines et sociales

DOI : 10.35562/arabesques.3820

p. 26-27

Plan

Texte

Le partenariat entamé en 2019 entre le laboratoire LARHRA et l’Abes marque une étape décisive dans la collaboration entre bibliothécaires et chercheur·euse·s, et démontre la nécessité d’associer référentiels et ontologies pour la compréhension et la réutilisation des données issues de la recherche.

Un article publié dans Arabesques en 2017 faisait état d’un premier alignement avec IdRef de personnes recensées dans la plateforme symogih.org, un environnement virtuel de recherche (EVR) mis en place au Laboratoire de recherche historique Rhône-Alpes (LARHRA) en 2008 : « l’intégration des autorités SyMoGIH avec les IdRef doit faciliter l’ouverture de notre entrepôt vers d’autres réservoirs de qualité, tout en enrichissant les IdRef »1. Sept ans après, ce projet a connu des développements importants qui s’inscrivent dans une collaboration entre le laboratoire LARHRA et l’Abes formalisée en 2019 par une convention de coopération scientifique.

Encourager la réutilisation des données de la recherche

Deux éléments principaux sont au cœur de cette démarche : d’une part, la publication avec les technologies sémantiques de données de la recherche afin de faciliter leur réutilisation ; d’autre part, l’enrichissement du référentiel IdRef avec les informations issues de la recherche. La finalité de cette opération est d’encourager la réutilisation des données pour de nouvelles recherches en sciences humaines et sociales (SHS), en application des principes FAIR (Findable, Accessible, Interoperable, Reusable). Pourquoi est-il essentiel, dans ce contexte, de pouvoir se référer à des autorités telles celles d’IdRef ? Selon une intuition qui était à l’origine du projet symogih.org, il est indispensable en vue de la réutilisation des données de distinguer entre les questions de recherche d’un projet et l’information collectée pour y répondre2. Si, en effet, le savoir issu de la démarche scientifique peut être défini comme une interprétation du monde, un modèle qui répond aux questions des chercheur·euse·s, l’information collectée pour produire ce savoir doit viser une représentation la plus factuelle possible du monde étudié, c’est-à-dire des objets qui le composent, de leurs propriétés et de leurs relations3. Cette distinction permet de produire des données qu’on pourra réutiliser pour répondre à de nouveaux questionnements.

Grâce au web sémantique, il devient possible de créer un graphe géant de relations entre objets du discours scientifique, relations sémantiquement explicites, et de capitaliser ainsi l’information produite par chaque projet en permettant sa réutilisation pour de nouvelles recherches. La condition est l’identification précise des objets grâce aux référentiels. Si Google a su réaliser un Giant Knowledge Graph comportant, en mars 2023, 8 milliards d’objets identifiés et 800 milliards de « faits » (source : Wikipedia), pourquoi les SHS n’en feraient pas autant, notamment en utilisant IdRef ?

 

 

IdRef, pivot de l’identification des objets du discours scientifique

Pour que ce projet scientifique et technologique aboutisse, trois composantes sont indispensables : un référentiel partagé permettant d’identifier clairement les objets du monde (personnes, organisations, concepts, etc.) ; une méthode de modélisation des relations entre objets capable d’intégrer les approches de différentes disciplines ; une infrastructure distribuée durable (cf. l’illustration), permettant de soutenir la démarche de recherche et l’interconnexion des données existantes.

Le référentiel IdRef se prête bien à cette fin car il est connecté avec la bibliographie du Sudoc, ainsi qu’avec la plateforme Persée, les archives dans Calames ou encore l’entrepôt de publications SciencePlus.abes.fr4. Il peut servir comme l’un des pivots de l’identification des objets du discours scientifique : non seulement il fait le lien vers d’autres référentiels tel celui de la Bibliothèque nationale de France ou Wikidata, mais il admet un enrichissement par les chercheur·euse·s (soumis à un contrôle de qualité) et, en retour, il tire profit d’un processus de désambiguïsation collectif.

Une application de gestion collaborative d’ontologies

Il faut ensuite disposer d’une ontologie, c’est-à-dire d’un modèle conceptuel formalisé et partagé, modulaire et ouvert aux différentes disciplines scientifiques. Pour répondre à ce défi, le LARHRA a travaillé, sur le plan pratique, à la mise en ligne d’une application de gestion collaborative d’ontologies, OntoME5. Cette plateforme permet d’étendre les standards, tel le CIDOC CRM, afin de disposer de classes et propriétés qui correspondent aux besoins des différentes disciplines SHS, et de gérer des profils applicatifs qui facilitent l’appropriation du modèle par les chercheur-ses6.

Sur le plan scientifique, l’utilisation de méthodologies de développement d’ontologies telle OntoClean, ainsi que l’analyse fondationnelle à l’aide de DOLCE, a permis de mettre en place un écosystème d’extensions du CIDOC CRM dans le projet Semantic Data for Humanities and Social Sciences (SDHSS)7. Cette méthodologie facilite également l’intégration d’autres standards, tels Records in Contexts (RiC) ou le IFLA Library Reference Model (LRM). À noter que l’écosystème d’ontologies SDHSS se limite à proposer un ensemble cohérent de classes et propriétés, afin de disposer d’un langage commun pour décrire les éléments essentiels de la vie sociale (le fait d’être propriétaire d’un objet, ou d’avoir un rôle dans une organisation, etc.), tandis que la gestion de vocabulaires contrôlés de types d’objets, ou de rôles sociaux, sont librement gérés par les chercheur-ses dans leurs projets respectifs, si possible en lien avec un référentiel comme IdRef.

Au niveau de l’infrastructure, un contrat de transfert de savoir-faire entre le CNRS et l’entreprise KleioLab a permis de créer un nouvel EVR, geovistory.org, qui remplace celui du projet symogih.org et intègre la plateforme ontome.net. Depuis cette année, le projet LOD4HSS8, piloté par Tobias Hodel (professeur d’humanités numériques à l’université de Berne), vise à promouvoir la pérennisation de cette infrastructure, qui sera portée par un consortium international d’organismes publics, et à développer de nouvelles fonctionnalités, telle l’intégration avec les graphes sémantiques de documents au format XML, encodés selon les standards TEI ou EAD. IdRef s’inscrit dans cette vision d’avenir, notamment via l’enrichissement des notices d’autorité avec des informations issues de la plateforme geovistory.org.

Pour les chercheur·euse·s, l’utilisation de cet EVR permettrait d’éviter deux écueils majeurs. D’une part, le fonctionnement en silos, selon le principe « nouveau projet = nouvelle base de données », qui est problématique en raison du caractère temporaire des projets et qui conduit souvent à la disparition des plateformes, et des données, une fois les financements terminés. D’autre part, l’absence d’une sémantique commune rend la réutilisation des données difficile voire impossible. Même en se servant du même outil (que ce soit Heurist, NodeGoat ou Wikibase) les données restent « prisonnières » de dépôts étanches les uns aux autres et leur interopérabilité est mise à mal par des choix de modèles conceptuels divergents ou contradictoires9.

Vers une nouvelle manière de produire le savoir en SHS

Certes, des méthodologies existent pour transformer ces données et les aligner avec les référentiels et une ontologie partagée. Un projet pilote a été mené dans le cadre de la collaboration entre l’Abes et le LARHRA, dans le contexte de l’ANR HisArc-RDF, qui a permis de créer un prototype de processus de transformation et publication de données sous forme de données liées ouvertes (Linked Open Data, LOD)10 : après alignement avec les IdRef et en utilisant le standard FRBRoo de l’IFLA, une partie des données du projet PRELIB, consacré au monde littéraire breton, est désormais accessibles sur le serveur SPARQL du projet dataforhumanities.org11. Reste que cette démarche comporte des coûts supplémentaires, rarement prévus dans le budget des projets.

L’évolution vers la publication de données de la recherche sous forme de LOD alignés avec les référentiels (si possible produits dès l’origine comme tels) permet d’envisager un renouvellement important des SHS grâce à un changement d’échelle du volume d’information disponible, virtuellement infini et de bonne qualité, facilement réutilisable grâce aux technologies du web sémantique. Le potentiel est tel qu’on peut prévoir un changement de paradigme dans ces disciplines, une transformation de leur manière de produire le savoir et de former les nouvelles générations de chercheur·euse·s12. Pour ce faire, une infrastructure collaborative et ouverte telle geovistory.org, capable d’accueillir grâce aux méthodologies sémantiques une grande variété de projets en SHS, par exemple de type Collex-Persée, est indispensable. De même en va-t-il de l’intégration des compétences liées aux LOD dans les métiers des bibliothèques, de l’information et du patrimoine, afin d’accompagner les chercheur·euse·s, et le public, dans la transition numérique.

Notes

1 Pierre Vernus, « SyMoGIH, de l’UMR 5190 – Larhra, et les ‘objets historiques’ », Arabesques, 85 | 2017, 14. Retour au texte

2 Francesco Beretta and Pierre Vernus, « Le projet SyMoGIH et la modélisation de l’information : une opération scientifique au service de l’histoire », Les Carnets du LARHRA, 1, 2012, 81–107. Retour au texte

3 Tom Gruber, « Ontology », in Liu, Ling, and M. Tamer Özsu, éds., Encyclopedia of Database Systems, Second Edition (Springer, 2018), 2574–76 https://doi.org/10.1007/978-1-4614-8265-9 Retour au texte

4 Yann Nicolas, « Scienceplus.abes.fr : une nouvelle base de données au service de la science ouverte », Arabesques, 103 | 2021, 22. Retour au texte

5 http://ontome.net Retour au texte

6 Francesco Beretta, « A Challenge for Historical Research: Making Data FAIR Using a Collaborative Ontology Management Environment (OntoME) », Semantic Web, 12.2 (2021), 279–94, https://doi.org/10.3233/SW-200416 Retour au texte

7 Id., « Interopérabilité des données de la recherche et ontologies fondationnelles : un écosystème d’extensions du CIDOC CRM pour les sciences humaines et sociales », in Nicolas Lasolle, Olivier Bruneau, and Jean Lieber, éds, Actes des journées Humanités Numériques et Web sémantique, (Nancy, France, 2022), pp. 2–22 https://doi.org/10.5281/zenodo.7014341 Retour au texte

8 https://www.geovistory.org/lod4hss Retour au texte

9 https://www.mediawiki.org/wiki/Wikibase/FAQ : “Wikibase users can design their own data model. Are there downsides to this?” Retour au texte

10 https://dataforhumanities.org/sparql-endpoint/prelib-v1 Retour au texte

11 François Mistral, « Des catalogues de bibliothèques aux projets en humanités numériques : les autorités IdRef font le lien , Arabesques, 105 | 2022, 16-17. Retour au texte

12 Francesco Beretta, « Données ouvertes liées et recherche historique : un changement de paradigme », Humanités numériques, 7, 2023, https://doi.org/10.4000/revuehn.3349 Retour au texte

Illustrations

Citer cet article

Référence papier

Francesco Beretta, « Données liées ouvertes et référentiels publics : un changement de paradigme pour la recherche en sciences humaines et sociales », Arabesques, 112 | 2024, 26-27.

Référence électronique

Francesco Beretta, « Données liées ouvertes et référentiels publics : un changement de paradigme pour la recherche en sciences humaines et sociales », Arabesques [En ligne], 112 | 2024, mis en ligne le 17 janvier 2024, consulté le 16 août 2025. URL : https://publications-prairial.fr/arabesques/index.php?id=3820

Auteur

Francesco Beretta

Historien, spécialiste en systèmes d’information pour les sciences humaines et sociales, chargé de recherche au CNRS, UMR 5190 LARHRA, Lyon

francesco.beretta@cnrs.fr

Autres ressources du même auteur

  • IDREF
  • ORCID
  • HAL
  • ISNI
  • VIAF
  • BNF

Droits d'auteur

CC BY-ND 2.0