TEI : Text Encoding Initiative

Index

Mots-clés

TEI, édition de sources, édition numérique, humanités numériques, données, FAIR

Keywords

TEI, source publishing, digital publishing, digital humanities, data, FAIR

Texte

Image 10000000000007EA00000595B3C1E551DB69295E.jpg

Réalisation Christine Chadier , CC-BY-NC-SA

Depuis la mise en place du pôle d’histoire numérique (devenu Axe de recherche en histoire numérique) le Laboratoire de recherche historique est résolument tourné vers l’interopérabilité et l’accessibilité des données, une dizaine d’années avant même que le « FAIR1 » et l’Open Science ne deviennent une recommandation du CNRS. Dans ce cadre, pour les projets d’édition de sources, nous avons cherché un outil qui permette le traitement numérique de l’édition de texte. Nous avons choisi d’utiliser la TEI, Text Encoding Initiative, pour les grandes possibilités de balisage structurel et sémantique qu’elle offre, mais aussi parce qu’elle reste lisible par l’œil humain et, tant pour faciliter la saisie en TEI que le travail sur des corpus de textes qui nécessitent l’utilisation de schémas pour contrôler l’édition, nous avons retenu l’éditeur xml Oxygen, assez souple pour être indifféremment utilisé par les chercheurs et les ingénieurs mais permettant aussi d’assurer un traitement affiné des données.

La TEI a été mise en place en 1987 par trois sociétés savantes, l'Association for Computers and the Humanities, l'Association for Computational Linguistics et l'Association for Literary and Linguistic Computing. Depuis 1987, le modèle théorique original s’est adapté à différentes technologies. Le schéma TEI utilisé actuellement est la version P5 de 2007. Ce schéma xml-TEI2 est le fruit du travail de comités internationaux chargés notamment de la maintenance et la croissance du schéma, de rédiger la documentation, de développer des outils génériques, d’assurer le support sur des listes de diffusions et de faire connaître le format. La TEI permet de modéliser la structure d’un texte tel qu'il a été conçu ce qui est particulièrement précieux pour l’historien pour lequel la forme du texte peut se révéler aussi significative que son contenu. La TEI fournit un cadre pour penser la nature du texte. Le langage xml-TEI est aujourd’hui un standard en matière d’édition de textes et particulièrement d’édition de sources.

Pour essayer de résumer un langage aussi structuré et développé que la TEI 3en moins de 5 000 signes, retenons qu’il permet de rassembler dans un seul document :

les métadonnées dans le TEI Header

  • abstract,

  • idno identifiant standardisé

  • keywords

  • language

  • licence

  • profileDesc (fournit une description détaillée des aspects non bibliographiques du texte, notamment les langues utilisées et leurs variantes, les circonstances de sa production, les collaborateurs et leur statut)

  • publicationStmt (regroupe des informations concernant la publication ou la diffusion d’un texte électronique)

  • revisionDesc

  • titleStmt (regroupe les informations sur le titre d’une œuvre et les personnes ou institutions responsables de son contenu etc.)

et le texte lui-même (<text>) contenant un <front> (Titre, description du manuscrit, lieu de conservation, etc.) le <body>, structuré en éléments <div>. Chaque <div> peut contenir différents éléments textuels : liste (<list>), paragraphe (<p>), etc. La TEI permet non seulement d’attribuer à chaque élément <div> du <body> un identifiant unique mais aussi de les « typer » (fig. 1).

Fig 1 : Structure en xml TEI des actes du synode de Bourgogne de 1618 qui s’est tenu à Paray-le-Monial (capture d’écran Oxygen, éditeur xml)

Fig 1 : Structure en xml TEI des actes du synode de Bourgogne de 1618 qui s’est tenu à Paray-le-Monial (capture d’écran Oxygen, éditeur xml)

Typer les éléments est particulièrement important lorsque l’on doit traiter un ensemble de textes (recueil d’actes, lettres, etc.), cela permet notamment de cibler les parties du texte sur lesquelles on souhaite effectuer une recherche textuelle (i. e. préambule, liste, signature, etc.) et l’identifiant unique permet de repérer instantanément la portion du texte concerné et ce quel que soit le langage utilisé pour effectuer les recherches. On pourrait par exemple écrire une requête en xslt pour lister des occurrences en fonction de l’identifiant attribué à une personne ou un lieu (i.e. rechercher les différentes graphies).

Pour mettre en place un projet d’édition de sources en TEI, il faut un chercheur qui prenne en compte l’intérêt de ce que le numérique peut apporter à sa recherche et un ingénieur pour organiser le travail. C’est cette collaboration étroite qui permet la réussite et la pérennité d’un projet.

Notes

1 Findable, Accessible, Interoperable, Reusable / Facile à trouver, Accessible, Interopérable, Réutilisable. Retour au texte

2 L'Extensible Markup Language, généralement appelé XML est le métalangage informatique de balisage générique sur lequel s’appuie actuellement la technologie de la TEI. Retour au texte

3 Les Guidelines, Consortium TEI, P5 : Recommandations pour l'encodage et l'échange de textes électroniques Version 4.3.0. Last updated on 31st August 2021, revision b4f72b1ff [en ligne : https://tei-c.org/release/doc/tei-p5-doc/fr/html/index.html] se sont 23 chapitres et 9 Annexes… Retour au texte

Illustrations

Citer cet article

Référence électronique

Christine Chadier, « TEI : Text Encoding Initiative », Les Carnets du LARHRA [En ligne], 1 | 2023, mis en ligne le 18 décembre 2023, consulté le 18 août 2025. URL : https://publications-prairial.fr/larhra/index.php?id=942

Auteur

Christine Chadier

Autres ressources du même auteur

  • IDREF
  • ISNI

Articles du même auteur