Infrastructure numérique de recherche en sciences humaines et sociales

Index

Mots-clés

outils numériques, données numériques, sémantisation

Keywords

digital tools, digitral data, sementization

Texte

Capture d'écran, https://www.geovistory.org/, 15/12/2023

Capture d'écran, https://www.geovistory.org/, 15/12/2023

Le LARHRA a une longue tradition dans l’utilisation d’outils numériques pour la recherche. Le laboratoire se dote d’un Pôle méthodes en 2007, sous la responsabilité de Jean-Pierre Dedieu, puis de Francesco Beretta en 2009. L’idée de départ est d’offrir à la communauté une méthodologie permettant la production collaborative et cumulative de données de la recherche, afin d’en faciliter l’analyse, avec des outils adaptés, et la réutilisation. En 2013, le Pôle méthodes devient le Pôle histoire numérique, se plaçant ainsi dans la grande famille des humanités numériques. Afin d’insister sur une démarche disciplinaire et épistémologique propre, il devient en 2021 un axe spécifique de Recherche en histoire numérique, sous la responsabilité de Julien Caranton et Vincent Alamercery.

Dans ce contexte est né en 2008 le projet symogih.org (Système modulaire de gestion de l’information historique)1 visant la production collaborative de données. Ainsi, le projet ANR SIPPAF a utilisé cette infrastructure pour mettre en place un système d’information prosopographique consacré au patronat français (XIXe-XXe siècles2). Les données continuent à être enrichies et utilisées plus de dix ans après la fin du financement (en 2010), notamment dans le cadre du projet Siprojuris consacré aux professeurs de droit en France de 1804 à 19503. Ces deux projets disposent chacun d’un site Web dédié, bien que la production des données se fasse dans l’environnement virtuel de recherche unique symogih.org, ce qui favorise la réutilisation, l’amélioration de la qualité des données et le prolongement de leur durée de vie. Trois thèses de doctorat4 et une trentaine d'autres projets ont bénéficié de cette infrastructure de recherche.

Dès 2013, une épreuve de concept a été menée avec les données du projet Siprojuris afin de les transformer en ontologie (ensemble de concepts permettant de donner un sens aux informations) et les publier sous forme de données liées ouvertes, en les mettant à disposition sur un point d’accès SPARQL qu’on peut librement interroger5. Pour l’alignement des entités, nous avons choisi IdRef, le référentiel de l’Agence bibliographique de l’enseignement supérieur : non seulement la liste des publications de chaque professeur est établie en récupérant en temps réel les données des notices du catalogue Sudoc6, mais encore les données du projet peuvent être intégrées avec celles d’autres ressources du web sémantique et réutilisées pour de nouvelles recherches, en réalisant ainsi la vision exprimée par les principes FAIR7.

En 2016, il a été décidé d’inscrire l’expérience de modélisation acquise au fil des années dans l’univers du CIDOC CRM, une ontologie largement utilisée dans le domaine des musées et des humanités numériques. Un écosystème d’extensions pour la recherche a été créé dans le projet Semantic Data for Humanities and Social Sciences (SDHSS)8, afin de produire une sémantique extensible, qui permet d’assurer la cohérence entre les modèles de recherche de différents projets et domaines des SHS9. Pour soutenir et faciliter ce processus de modélisation ouverte et collaborative, un nouveau service en ligne a été créé, OntoME (Ontology Management Environment10), adopté par différents projets notamment ERC11.

Le consortium Data for History a été créé à Lyon en novembre 2017 à l’initiative du LARHRA afin de promouvoir cette vision12. Il a été suivi par un deuxième atelier lyonnais en 2018, puis par deux colloques internationaux, respectivement à Leipzig en 2019 et à Berlin en 2021 (en ligne)13, et un workshop d’experts à l’Université de Bologne en 202214. Dans ce contexte, s’inscrit aussi un nouveau projet de sémantisation et de mise à disposition de données issues de projets terminés, Data for Humanities15, qui s’appuie, entre autres, sur une convention de collaboration de recherche entre l’ABES et le LARHRA, notamment dans le projet ANR HisArc-RDF (Partage et réutilisation de données archéologiques et historiques : une description en RDF appuyée sur les référentiels et les normes du Web sémantique, 2019-2022).

Un laboratoire de recherche comme le LARHRA ne pouvant héberger, dans le long terme, une infrastructure de recherche de l’envergure de celle du projet symogih.org, une migration des données est en cours vers Geovistory16, un nouvel environnement virtuel de recherche et de plateforme de publication des données, actuellement porté par le LARHRA, la société KleioLab17 et la chaire d’humanités numériques de l’Université de Berne18, dans le cadre d’un partenariat public-privé destiné à pérenniser l’infrastructure, en constituant un consortium d’institutions promouvant son développement dans le long terme. Geovistory reprend et développe de manière significative l’approche du projet symogih.org, tout en apportant des améliorations et des modernisations concernant les technologies utilisées. Le modèle de données est géré dans la plateforme OntoME et profite de l’écosystème d’ontologies du projet SDHSS. Dès leur production, le sens des données est ainsi explicité en utilisant une sémantique qui garantit leur interopérabilité et leur réutilisation pour de nouvelles recherches.

Une interface de requêtes graphique facilite l’exploration et l’exportation des données dans différents formats. Les projets peuvent disposer d’un site Web dédié, ainsi que d’un point d’accès SPARQL, sur lequel sont publiées les données du projet selon sa perspective propre. De plus, un entrepôt générique publie les données de l’ensemble de la communauté, avec toute sa richesse et ses points de vue différents. Les entités de Geovistory sont reliées, tout comme celles du projet symogih.org, avec les référentiels du Web sémantique, notamment les notices d’autorité IdRef de l’ABES, et s’inscrivent ainsi dans la logique des données de la recherche ouvertes.

Dès le départ, et avec une plus grande maturité aujourd’hui, l’infrastructure co-portée par le LARHRA a été mise en place, afin de permettre aux projets de recherche en sciences historiques et, plus largement, en sciences humaines et sociales, de gérer une problématique de recherche propre. Cette infrastructure participe aussi à la production d’un graphe géant d’information au service de la recherche et du public, fondé sur les méthodes et les technologies du Web sémantique, afin de contribuer au renouvellement de la recherche grâce aux outils numériques19.

La construction et le développement de cette infrastructure n’aurait pas été possible sans la contribution active et engagée de nombreux collègues du LARHRA, enseignants-chercheurs et ingénieurs, dont Bernard Hours, Pierre Vernus, Djamel Ferhod, Sylvain Boschetto, Charlotte Butez, Christine Chadier, Séverine Gedzelman, Alexandre Perraud, Morgane Pica, que nous tenons à remercier pour leur implication.

Notes

1 http://symogih.org — Francesco Beretta et Pierre Vernus, « Le projet SyMoGIH et la modélisation de l'information : une opération scientifique au service de l'histoire », Les Carnets du LARHRA, 1, 2012, 81-107. Retour au texte

2 http://www.patronsdefrance.fr Retour au texte

3 http://siprojuris.symogih.org Retour au texte

4 Marie Delcourte, Université de Valenciennes, 2016 ; Jessica Kohn, Université Paris 3, 2018 ; Aurélie Philipe, Université Paris 13, 2021. Retour au texte

5 http://symogih.org/?q=rdf-publication Retour au texte

6 http://siprojuris.symogih.org/siprojuris/enseignant/44315/ Retour au texte

7 https://sdhss.org Retour au texte

8 https://sdhss.org Retour au texte

9 Francesco Beretta, « A Challenge for Historical Research : Making Data FAIR Using a Collaborative Ontology Management Environment (OntoME) », Semantic Web, 12, 2, 2021, 279-294. Retour au texte

10 https://ontome.net Retour au texte

11 En particulier, deux projets financés sur fonds européens ont utilisé OntoME pour la préparation du modèle de données : Silknow et Read-it. Retour au texte

12 http://dataforhistory.org Retour au texte

13 https://d4h2020.sciencesconf.org Retour au texte

https://dhistory.hypotheses.org/category/forschungskolloquium/data-for-history-lectures

14 https://data4history-unibo.github.io/meeting2022/ Retour au texte

15 http://dataforhumanities.org Retour au texte

16 https://www.geovistory.org Retour au texte

17 https://kleiolab.ch Retour au texte

18 https://www.dh.unibe.ch/index_eng.html Retour au texte

19 Francesco Beretta, « Données ouvertes liées et recherche historique : un changement de paradigme », Humanités numériques, 7, 2023 Retour au texte

Illustrations

Citer cet article

Référence électronique

Francesco Beretta, Julien Caranton et Vincent Alamercery, « Infrastructure numérique de recherche en sciences humaines et sociales », Les Carnets du LARHRA [En ligne], 1 | 2023, mis en ligne le 18 décembre 2023, consulté le 19 juillet 2025. URL : https://publications-prairial.fr/larhra/index.php?id=799

Auteurs

Francesco Beretta

Autres ressources du même auteur

  • IDREF
  • ORCID
  • HAL
  • ISNI
  • BNF

Articles du même auteur

Julien Caranton

Autres ressources du même auteur

  • IDREF
  • HAL

Vincent Alamercery

Autres ressources du même auteur

  • IDREF
  • HAL
  • ISNI