<?xml version="1.0" encoding="UTF-8"?>
<TEI change="metopes_publication#openedition"
     xmlns="http://www.tei-c.org/ns/1.0"
     xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
     xmlns:xs="http://www.w3.org/2001/XMLSchema"
     xmlns:xlink="http://www.w3.org/1999/xlink"
     xmlns:xi="http://www.w3.org/2001/XInclude"
     xmlns:ns="http://www.tei-c.org/ns/1.0"
     xmlns:mathml="http://www.w3.org/1998/Math/MathML"
     xmlns:loext="urn:org:documentfoundation:names:experimental:office:xmlns:loext:1.0"
     xmlns:dcr="http://www.isocat.org/ns/dcr">
  <teiHeader>
    <fileDesc>
      <titleStmt>
        <title type="main">eScriptorium : une application libre pour la
        transcription automatique des manuscrits</title>

        <author role="aut"><name>Alix Chagué</name><affiliation><ref
        target="#aff01" type="affiliation"/></affiliation><idno
        type="IDREF">26158863X</idno></author>
      </titleStmt>

      <editionStmt>
        <edition><date>2022-10-05T21:47:00</date></edition>
      </editionStmt>

      <publicationStmt>
        <publisher/>

        <ab type="papier"><dimensions>
            <dim type="pagination">25</dim>
          </dimensions><date>01/10/2022</date></ab>

        <idno type="book"/>

        <ab type="lodel"><date/></ab>
      </publicationStmt>

      <sourceDesc>
        <p>Version Métopes : 3.0</p>

        <p>Written by OpenOffice</p>

        <bibl>Arabesques</bibl>
      </sourceDesc>
    </fileDesc>

    <encodingDesc>
      <tagsDecl>
        <rendition scheme="css" xml:id="none">color:black;</rendition>
      </tagsDecl>
    </encodingDesc>

    <profileDesc>
      <langUsage>
        <language ident="fr-FR"/>
      </langUsage>

      <textClass>
        <keywords scheme="keyword" xml:lang="fr">
          <list>
            <item>Système D : des outils pour vos données</item>
          </list>
        </keywords>
      </textClass>
    </profileDesc>

    <revisionDesc>
      <change when="2022-10-13T16:16:00"
      who="Marie-Pierre Roux">Révision</change>
    </revisionDesc>
  </teiHeader>

  <text xml:id="text">
    <front>
      <titlePage>
        <docTitle>
          <titlePart style="T_3_Article" type="main">eScriptorium : une
          application libre pour la transcription automatique des
          manuscrits</titlePart>
        </docTitle>

        <docAuthor style="txt_auteur">Alix Chagué</docAuthor>

        <byline style="auteur_Courriel"><email><ref
        target="mailto:alix.chague@inria.fr">alix.chague@inria.fr</ref></email></byline>

        <byline style="auteur_Institution"><affiliation
        xml:id="aff01">Doctorante en humanités numériques au sein de l’équipe
        ALMnaCH (Inria – Paris) et du GREN (Université de
        Montréal)</affiliation></byline>
      </titlePage>

      <div type="resume_motscles">
        <p style="txt_Motclef"> : Système D : des outils pour vos données</p>
      </div>

      <argument>
        <p style="txt_chapo">Développée en 2019, l’application eScriptorium
        dote le logiciel Kraken d’une interface graphique et facilite la
        conduite de campagnes de transcription automatique.</p>
      </argument>
    </front>

    <body>
      <div type="chapitre" xml:id="mainDiv">
        <p style="txt_Normal">Cela fait longtemps que la transcription
        automatique des documents imprimés (OCR) et manuscrits (HTR) intéresse
        le monde de la recherche et celui des institutions patrimoniales. Le
        développement de processus s’appuyant sur l’intelligence artificielle
        et l’augmentation des capacités de calcul ont récemment ouvert de
        nouvelles perspectives. Dès le début des années 2000, des campagnes
        d’OCR ont été mises en place pour traiter les imprimés. Pour les
        manuscrits en revanche, ce n’est qu’à partir du milieu des années 2010
        que les choses ont commencé à changer avec l’apparition de logiciels
        disponibles en ligne sur abonnement comme Transkribus ou en <hi
        rend="italic" style="typo_Italique">open source </hi>comme
        eScriptorium. C’est le groupe de recherche SCRIPTA PSL<note n="1"
        place="foot" style="txt_Note" type="standard" xml:id="ftn1"><p>
        SCRIPTA PSL : <ref target="https://scripta.psl.eu"><hi
        rend="underline"
        style="typo_souligne">https://scripta.psl.eu</hi></ref></p></note><hi
        rend="bold" style="typo_gras"> </hi>qui développe, depuis 2019,
        l’application eScriptorium dont la vocation principale était de doter
        le logiciel Kraken<note n="2" place="foot" style="txt_Note"
        type="standard" xml:id="ftn2"><p> Kraken : <ref
        target="https://kraken.re/master/index.html"><hi rend="underline"
        style="typo_souligne">https://kraken.re/master/index.html</hi></ref></p></note><hi
        rend="bold" style="typo_gras"> </hi>d’une interface graphique
        facilitant son utilisation. Kraken est un logiciel de transcription
        automatique développé en <hi rend="italic" style="typo_Italique">open
        source </hi>en 2015 par Benjamin Kiessling et conçu initialement pour
        proposer une meilleure prise en charge des textes non latins, en
        particulier arabes. Aujourd’hui, le groupe bénéficie des contributions
        d’autres infrastructures ou projets de recherche qui ont adopté
        l’application. Ce fut le cas du projet LectAuRep (Inria/Archives
        nationales) jusqu’en 2022 ou encore du groupe OpenITI (université du
        Maryland).</p>

        <figure>
          <graphic url="../icono/br/arabesques_107_page_25_syst_d.jpg"/>

          <figDesc>Une image contenant texte Description générée
          automatiquement</figDesc>

          <head style="titre_figure">Vue du tableau de bord d’eScriptorium
          permettant de gérer la segmentation et la transcription d’un
          document manuscrit.</head>
        </figure>

        <div type="section1">
          <head style="T_1" subtype="level1">Un espace de travail pour gérer
          les étapes essentielles d’une campagne de transcription</head>

          <p style="txt_Normal">L’application eScriptorium sert d’espace de
          travail pour gérer les étapes essentielles d’une campagne de
          transcription. Celles-ci sont relativement simples : charger des
          images (y compris en les extrayant d’un fichier PDF ou d’un serveur
          IIIF), analyser la mise en page en localisant des ensembles de
          lignes de texte auxquelles on peut assigner des types, et enfin
          transcrire. Ces deux dernières étapes peuvent être réalisées à la
          main ou bien à l’aide de Kraken. À l’issue du processus, des triades
          composées d’une image, des coordonnées des lignes ou des ensembles,
          et de la transcription peuvent être exportées dans des formats
          standards (XML ALTO et PAGE) et servir à générer par exemple des
          éditions numériques. Ce sont aussi ces triades qui permettent de
          créer des modèles à l’aide de Kraken, avec ou sans l’intermédiaire
          d’eScriptorium. Les modèles sont des fichiers qui enregistrent une
          représentation abstraite des informations telles qu’elles ont été
          apprises par le logiciel au contact d’exemples de transcription.
          Cette abstraction permet à un logiciel comme Kraken de générer un
          texte à partir de l’analyse d’une image. En plus de ces actions
          essentielles, eScriptorium propose d’autres fonctionnalités pour la
          gestion de projet : création d’équipe, partage des transcriptions,
          images et modèles, regroupement des images en « documents »,
          eux-mêmes rangés dans des « projets », étiquetage des documents,
          suivi de la progression, etc.</p>
        </div>

        <div type="section1">
          <head style="T_1" subtype="level1">La production de modèles,
          principal défi à relever</head>

          <p style="txt_Normal">Pour utiliser eScriptorium, l’application doit
          être déployée sur un serveur Web installé sur un ordinateur
          personnel ou sur une machine dédiée. Les capacités de calcul du
          matériel employé font ensuite la différence au moment de faire
          tourner Kraken, en particulier lors des entraînements. Certaines
          institutions ou infrastructures de recherche proposent d’ouvrir des
          comptes sur leur serveur eScriptorium, mais il est difficile de les
          recenser toutes. Heureusement, il est aisé de déplacer ses données
          d’une instance à une autre puisque tout peut être téléchargé.</p>

          <p style="txt_Normal">À l’heure actuelle, eScriptorium propose un
          modèle de segmentation par défaut efficace mais n’en propose pas
          pour la transcription : il faut en créer un soi-même ou trouver sur
          Internet ceux que d’autres utilisateurs de Kraken/eScriptorium ont
          créés. Certains sont déposés sur Zenodo<note n="3" place="foot"
          style="txt_Note" type="standard" xml:id="ftn3"><p> Zenodo : <ref
          target="https://zenodo.org/communities/ocr_models"><hi
          rend="underline"
          style="typo_souligne">https://zenodo.org/communities/ocr_models</hi></ref></p></note><hi
          rend="bold" style="typo_gras"> </hi>et des initiatives comme
          HTR-United<note n="4" place="foot" style="txt_Note" type="standard"
          xml:id="ftn4"><p> HTR-United : <ref
          target="https://htr-united.github.io"><hi rend="underline"
          style="typo_souligne">https://htr-united.github.io</hi></ref></p></note><hi
          rend="bold" style="typo_gras"> </hi>permettent de trouver des
          données à partir desquelles générer ces modèles. La production de
          modèles, qu’ils soient spécialistes d’une écriture, d’un type de
          document ou bien généralistes, est l’un des principaux défis à
          relever pour faire progresser l’implémentation de l’HTR dans les
          institutions patrimoniales. L’avantage de l’écosystème ouvert de
          Kraken/eScriptorium réside justement dans le fait qu’il permet aux
          utilisateurs de créer en autonomie et en toute transparence ces
          données et ces modèles.</p>
        </div>
      </div>
    </body>
  </text>
</TEI>
