Data & Corpus, intégrer les métiers de la donnée au cœur de l'édition scientifique

DOI : 10.35562/arabesques.4490

p. 26

Index

Mots-clés

Système D : des outils pour vos données

Plan

Texte

Le projet

Lancer une revue nativement numérique, en accès ouvert diamant, dédiée exclusivement aux data papers en Sciences Humaines et Sociales (SHS).

Initié en 2022 par un collectif interdisciplinaire, ce projet vise à combler le « chaînon manquant » éditorial en transformant la donnée brute en une contribution scientifique citable et validée.

Le constat : un vide éditorial en SHS

La Science Ouverte a érigé l'ouverture des données en principe fondamental. Si les sciences exactes disposent de canaux établis pour les data papers, les chercheurs en SHS peinent à trouver des revues adaptées. Souvent purement disciplinaires ou payantes (APC), les revues existantes ne permettent pas toujours de décrire techniquement des données hétérogènes (archives électorales, enregistrements sonores, bases de données historiques, etc.).

Résultat : de précieuses données restent invisibles dans les circuits traditionnels sans la contextualisation nécessaire à leur réutilisation.

La méthode : un processus éditorial inversé

La revue Data & Corpus inverse la logique traditionnelle : le processus ne débute pas par l'écriture d'un article, mais par le traitement de la donnée. Ce dispositif garantit l'accès et la réutilisation à travers trois étapes clés :

  1. Dépôt et structuration : L'entrée par un entrepôt de confiance (Nakala, Ortolang, Recherche Data Gouv, etc.) est un prérequis absolu. L'article n'héberge pas les données mais pointe vers elles via un identifiant pérenne (DOI). La revue encourage l'usage de la taxonomie CRediT pour attribuer les rôles, permettant aux ingénieurs ayant aidé à la structuration de co-signer l'article et de valoriser ce travail souvent invisible.
  2. Soumission via HAL : Avant toute évaluation, l'article doit être déposé en tant que préprint sur l'archive ouverte HAL. Le comité effectue un contrôle de conformité avant de lancer l'évaluation.
  3. L'évaluation croisée (double expertise) : C'est la spécificité centrale. L'évaluation, réalisée en simple aveugle sous six mois, mobilise un binôme d'experts :
  • Un expert scientifique : Valide la cohérence disciplinaire et la méthodologie.
  • Un professionnel de la donnée (IST) : Expertise la structuration, les métadonnées et la qualité technique du dépôt (respect des principes FAIR : Facile à trouver, Accessible, Interopérable, Réutilisable).

Le flux éditorial inversé de Data & Corpus

Le flux éditorial inversé de Data & Corpus

Gouvernance et Infrastructure

Le projet repose sur une gouvernance inédite où ingénieurs, documentalistes et chercheurs sont co-constructeurs au sein du comité éditorial.

  • Infrastructure : La revue est hébergée sur la plateforme Episciences1, permettant une gestion fluide des épi-revues (overlay journals) qui se greffent sur les archives ouvertes.
  • Modèle économique : Le modèle « diamant » (gratuit pour l'auteur et le lecteur) est un choix éthique soutenu par l'Université de Lorraine et la MSH Lorraine.

Exemple de réalisation concrète : la diversité à l’œuvre

Le premier numéro, publié en décembre 2025, illustre la faisabilité de cette approche interdisciplinaire à travers six articles pionniers :

  • Psycholinguistique : Un corpus de 705 transcriptions d'enfants (projet ANR DyLNet) pour analyser la socialisation langagière, déposé sur Ortolang.
  • Géomorphologie : Une base unique de photographies aériennes obliques du Rhône (1919-1961), valorisée via une photothèque interactive pour documenter les trajectoires environnementales du fleuve.
  • Sciences politiques et Web : L'exploration des « campagnes disparues » grâce aux archives électorales du Web collectées par la BnF et traitées via le logiciel libre PANDORÆ.
  • Histoire : Une réévaluation critique de la base de données Jean Nicolas sur les rébellions en France (1661-1789), analysant les biais méthodologiques pour renforcer la valeur de la ressource.
  • Sociologie des médias : Une cartographie web enrichie de l'écosystème médiatique français regroupant 747 sites.

Bilan et perspectives

Inaugurée à la MSH Lorraine en mars 2025, la revue dépasse sa fonction éditoriale pour devenir un vecteur d'apprentissage des bonnes pratiques de publication des données. Toutefois, cette dynamique ne doit pas masquer les exigences de son fonctionnement : si le modèle diamant évite les coûts financiers directs, il repose sur un investissement important en « temps-agent ».

Le défi majeur reste politique : faire admettre aux instances d'évaluation (comme le HCERES) qu'un data paper a autant de valeur qu'un article de recherche classique. C'est tout l'enjeu de la reconnaissance des productions diverses soutenue par la coalition CoARA2.

Notes

1 Consulter : https://dc.episciences.org Retour au texte

2 Consulter : https://coara.fr Retour au texte

Illustrations

Citer cet article

Référence papier

Florence Thiault, « Data & Corpus, intégrer les métiers de la donnée au cœur de l'édition scientifique », Arabesques, 119 | 2026, 26.

Référence électronique

Florence Thiault, « Data & Corpus, intégrer les métiers de la donnée au cœur de l'édition scientifique », Arabesques [En ligne], 119 | 2026, mis en ligne le 19 mars 2026, consulté le 26 mars 2026. URL : https://publications-prairial.fr/arabesques/index.php?id=4490

Auteur

Florence Thiault

Rédactrice en chef de la revue Data & Corpus

Co-responsable de l'URFIST Bretagne Pays de la Loire

Université Rennes 2

florence.thiault@univ-rennes2.fr

Autres ressources du même auteur

  • IDREF
  • ORCID
  • HAL
  • ISNI
  • VIAF

Articles du même auteur

Droits d'auteur

CC BY-ND 2.0