Capture d'écran, https://www.geovistory.org/, 15/12/2023
Le LARHRA a une longue tradition dans l’utilisation d’outils numériques pour la recherche. Le laboratoire se dote d’un Pôle méthodes en 2007, sous la responsabilité de Jean-Pierre Dedieu, puis de Francesco Beretta en 2009. L’idée de départ est d’offrir à la communauté une méthodologie permettant la production collaborative et cumulative de données de la recherche, afin d’en faciliter l’analyse, avec des outils adaptés, et la réutilisation. En 2013, le Pôle méthodes devient le Pôle histoire numérique, se plaçant ainsi dans la grande famille des humanités numériques. Afin d’insister sur une démarche disciplinaire et épistémologique propre, il devient en 2021 un axe spécifique de Recherche en histoire numérique, sous la responsabilité de Julien Caranton et Vincent Alamercery.
Dans ce contexte est né en 2008 le projet symogih.org (Système modulaire de gestion de l’information historique)1 visant la production collaborative de données. Ainsi, le projet ANR SIPPAF a utilisé cette infrastructure pour mettre en place un système d’information prosopographique consacré au patronat français (XIXe-XXe siècles2). Les données continuent à être enrichies et utilisées plus de dix ans après la fin du financement (en 2010), notamment dans le cadre du projet Siprojuris consacré aux professeurs de droit en France de 1804 à 19503. Ces deux projets disposent chacun d’un site Web dédié, bien que la production des données se fasse dans l’environnement virtuel de recherche unique symogih.org, ce qui favorise la réutilisation, l’amélioration de la qualité des données et le prolongement de leur durée de vie. Trois thèses de doctorat4 et une trentaine d'autres projets ont bénéficié de cette infrastructure de recherche.
Dès 2013, une épreuve de concept a été menée avec les données du projet Siprojuris afin de les transformer en ontologie (ensemble de concepts permettant de donner un sens aux informations) et les publier sous forme de données liées ouvertes, en les mettant à disposition sur un point d’accès SPARQL qu’on peut librement interroger5. Pour l’alignement des entités, nous avons choisi IdRef, le référentiel de l’Agence bibliographique de l’enseignement supérieur : non seulement la liste des publications de chaque professeur est établie en récupérant en temps réel les données des notices du catalogue Sudoc6, mais encore les données du projet peuvent être intégrées avec celles d’autres ressources du web sémantique et réutilisées pour de nouvelles recherches, en réalisant ainsi la vision exprimée par les principes FAIR7.
En 2016, il a été décidé d’inscrire l’expérience de modélisation acquise au fil des années dans l’univers du CIDOC CRM, une ontologie largement utilisée dans le domaine des musées et des humanités numériques. Un écosystème d’extensions pour la recherche a été créé dans le projet Semantic Data for Humanities and Social Sciences (SDHSS)8, afin de produire une sémantique extensible, qui permet d’assurer la cohérence entre les modèles de recherche de différents projets et domaines des SHS9. Pour soutenir et faciliter ce processus de modélisation ouverte et collaborative, un nouveau service en ligne a été créé, OntoME (Ontology Management Environment10), adopté par différents projets notamment ERC11.
Le consortium Data for History a été créé à Lyon en novembre 2017 à l’initiative du LARHRA afin de promouvoir cette vision12. Il a été suivi par un deuxième atelier lyonnais en 2018, puis par deux colloques internationaux, respectivement à Leipzig en 2019 et à Berlin en 2021 (en ligne)13, et un workshop d’experts à l’Université de Bologne en 202214. Dans ce contexte, s’inscrit aussi un nouveau projet de sémantisation et de mise à disposition de données issues de projets terminés, Data for Humanities15, qui s’appuie, entre autres, sur une convention de collaboration de recherche entre l’ABES et le LARHRA, notamment dans le projet ANR HisArc-RDF (Partage et réutilisation de données archéologiques et historiques : une description en RDF appuyée sur les référentiels et les normes du Web sémantique, 2019-2022).
Un laboratoire de recherche comme le LARHRA ne pouvant héberger, dans le long terme, une infrastructure de recherche de l’envergure de celle du projet symogih.org, une migration des données est en cours vers Geovistory16, un nouvel environnement virtuel de recherche et de plateforme de publication des données, actuellement porté par le LARHRA, la société KleioLab17 et la chaire d’humanités numériques de l’Université de Berne18, dans le cadre d’un partenariat public-privé destiné à pérenniser l’infrastructure, en constituant un consortium d’institutions promouvant son développement dans le long terme. Geovistory reprend et développe de manière significative l’approche du projet symogih.org, tout en apportant des améliorations et des modernisations concernant les technologies utilisées. Le modèle de données est géré dans la plateforme OntoME et profite de l’écosystème d’ontologies du projet SDHSS. Dès leur production, le sens des données est ainsi explicité en utilisant une sémantique qui garantit leur interopérabilité et leur réutilisation pour de nouvelles recherches.
Une interface de requêtes graphique facilite l’exploration et l’exportation des données dans différents formats. Les projets peuvent disposer d’un site Web dédié, ainsi que d’un point d’accès SPARQL, sur lequel sont publiées les données du projet selon sa perspective propre. De plus, un entrepôt générique publie les données de l’ensemble de la communauté, avec toute sa richesse et ses points de vue différents. Les entités de Geovistory sont reliées, tout comme celles du projet symogih.org, avec les référentiels du Web sémantique, notamment les notices d’autorité IdRef de l’ABES, et s’inscrivent ainsi dans la logique des données de la recherche ouvertes.
Dès le départ, et avec une plus grande maturité aujourd’hui, l’infrastructure co-portée par le LARHRA a été mise en place, afin de permettre aux projets de recherche en sciences historiques et, plus largement, en sciences humaines et sociales, de gérer une problématique de recherche propre. Cette infrastructure participe aussi à la production d’un graphe géant d’information au service de la recherche et du public, fondé sur les méthodes et les technologies du Web sémantique, afin de contribuer au renouvellement de la recherche grâce aux outils numériques19.
La construction et le développement de cette infrastructure n’aurait pas été possible sans la contribution active et engagée de nombreux collègues du LARHRA, enseignants-chercheurs et ingénieurs, dont Bernard Hours, Pierre Vernus, Djamel Ferhod, Sylvain Boschetto, Charlotte Butez, Christine Chadier, Séverine Gedzelman, Alexandre Perraud, Morgane Pica, que nous tenons à remercier pour leur implication.