<?xml version="1.0" encoding="UTF-8"?>
<TEI change="metopes_publication#openedition"
     xmlns="http://www.tei-c.org/ns/1.0"
     xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
     xmlns:xs="http://www.w3.org/2001/XMLSchema"
     xmlns:xlink="http://www.w3.org/1999/xlink"
     xmlns:xi="http://www.w3.org/2001/XInclude"
     xmlns:ns="http://www.tei-c.org/ns/1.0"
     xmlns:mathml="http://www.w3.org/1998/Math/MathML"
     xmlns:loext="urn:org:documentfoundation:names:experimental:office:xmlns:loext:1.0"
     xmlns:dcr="http://www.isocat.org/ns/dcr">
  <teiHeader>
    <fileDesc>
      <titleStmt>
        <title type="main">TRANSKRIBUS : l’intelligence artificielle au
        service du patrimoine documentaire</title>

        <author role="aut"><name>Maxime Gohier</name><affiliation><ref
        target="#aff01" type="affiliation"/></affiliation><idno
        type="IDREF">131834053</idno><idno
        type="ARK">http://catalogue.bnf.fr/ark:/12148/cb159064468</idno><idno
        type="VIAF">http://viaf.org/viaf/212110902</idno></author>
      </titleStmt>

      <editionStmt>
        <edition><date>2022-10-05T21:38:00</date></edition>
      </editionStmt>

      <publicationStmt>
        <publisher/>

        <ab type="papier"><dimensions>
            <dim type="pagination">24</dim>
          </dimensions><date>01/10/2022</date></ab>

        <idno type="book"/>

        <ab type="lodel"><date/></ab>
      </publicationStmt>

      <sourceDesc>
        <p>Version Métopes : 3.0</p>

        <p>Written by OpenOffice</p>

        <bibl>Arabesques</bibl>
      </sourceDesc>
    </fileDesc>

    <encodingDesc>
      <tagsDecl>
        <rendition scheme="css" xml:id="none">color:black;</rendition>
      </tagsDecl>
    </encodingDesc>

    <profileDesc>
      <langUsage>
        <language ident="fr-FR"/>
      </langUsage>

      <textClass>
        <keywords scheme="keyword" xml:lang="fr">
          <list>
            <item>Système D : des outils pour vos données</item>
          </list>
        </keywords>
      </textClass>
    </profileDesc>

    <revisionDesc>
      <change when="2022-10-12T17:24:00"
      who="Marie-Pierre Roux">Révision</change>
    </revisionDesc>
  </teiHeader>

  <text xml:id="text">
    <front>
      <titlePage>
        <docTitle>
          <titlePart style="T_3_Article" type="main">TRANSKRIBUS :
          l’intelligence artificielle au service du patrimoine
          documentaire</titlePart>
        </docTitle>

        <docAuthor style="txt_auteur">Maxime Gohier</docAuthor>

        <byline style="auteur_Courriel"><email><ref
        target="mailto:Maxime_gohier@uqar.ca">Maxime_gohier@uqar.ca</ref></email></byline>

        <byline style="auteur_Institution"><affiliation
        xml:id="aff01">Professeur d’histoire, université du Québec à Rimouski
        et directeur de Nouvelle-France numérique </affiliation></byline>
      </titlePage>

      <div type="resume_motscles">
        <p style="txt_Motclef"> : Système D : des outils pour vos données</p>
      </div>

      <argument>
        <p style="txt_chapo">Lancée en 2015, Transkribus est la première
        plateforme de reconnaissance automatique des écritures manuscrites.
        C’est aussi une interface de traitement du patrimoine
        documentaire.</p>
      </argument>
    </front>

    <body>
      <div type="chapitre" xml:id="mainDiv">
        <p style="txt_Normal">Transkribus est la première plateforme de
        reconnaissance automatique des écritures manuscrites (RÉM ou HTR pour
        <hi rend="italic" style="typo_Italique">Handwritten Text
        Recognition</hi>) développée pour mettre en valeur le patrimoine
        documentaire. Elle a été lancée en 2015, dans le cadre du projet READ
        (<hi rend="italic" style="typo_Italique">Research and Enrichment of
        Archival Documents</hi>) mené par l’université d’Innsbruck (en
        collaboration avec un consortium de 13 autres universités et centres
        de recherches européens) et financé par la Commission européenne dans
        le cadre de l’initiative Horizon 2020 (2016-2019). Aujourd’hui prise
        en charge par la coopérative READ-COOP SCE, dont les membres sont
        essentiellement des centres d’archives, des bibliothèques, des
        universités ou des laboratoires de recherche, Transkribus compte plus
        de 80 000 utilisateurs partout dans le monde<note n="1" place="foot"
        style="txt_Note" type="standard" xml:id="ftn1"><p> <ref
        target="https://readcoop.eu/transkribus"><hi rend="underline"
        style="typo_souligne">https://readcoop.eu/transkribus</hi></ref></p></note>.</p>

        <p style="txt_Normal">Tablant sur les avancées de la recherche en
        intelligence artificielle, Transkribus permet la reconnaissance
        d’écritures de tous les types (manuscrits ou imprimés), de toutes les
        époques et dans toutes les langues. Pour ce faire, Transkribus
        exploite une approche d’apprentissage machine basée sur des réseaux de
        neurones profonds (<hi rend="italic" style="typo_Italique">deep neural
        network</hi>) pour localiser avec précision les lignes de texte dans
        une image numérique<note n="2" place="foot" style="txt_Note"
        type="standard" xml:id="ftn2"><p> Max Weidemann, et al., HTR Engine
        Based on NNs P2: Building Deep Architectures with TensorFlow,
        READ-H2020 Project, 2017.</p></note><hi rend="bold" style="typo_gras">
        </hi>et pour reconnaître chaque caractère de ces lignes en les
        comparant statistiquement avec les données d’entraînement fournies par
        l’utilisateur. Avec une centaine de pages transcrites, les
        utilisateurs peuvent ainsi créer un modèle de reconnaissance
        spécifiquement adapté à la graphie et à la langue des textes qu’ils
        souhaitent travailler.</p>

        <p style="txt_Normal">Jusqu’ici, quelque 12 000 modèles de
        reconnaissance ont été entraînés par les usagers, qui ont permis de
        transcrire plus de 31 millions de pages<note n="3" place="foot"
        style="txt_Note" type="standard" xml:id="ftn3"><p> Données à jour en
        août 2022 (<ref target="https://readcoop.eu/transkribus"><hi
        rend="underline"
        style="typo_souligne">https://readcoop.eu/transkribus</hi></ref>).</p></note>,
        incluant des imprimés (ouvrages et journaux) anciens et modernes et
        des documents manuscrits ou hybrides. Parmi ces modèles, une centaine
        sont publiquement accessibles à tous les utilisateurs et ce, dans 24
        langues différentes, du XI<hi rend="sup" style="typo_Exposant">e</hi>
        au XXI<hi rend="sup" style="typo_Exposant">e</hi> siècles<note n="4"
        place="foot" style="txt_Note" type="standard" xml:id="ftn4"><p> <ref
        target="https://readcoop.eu/transkribus/public-models"><hi
        rend="underline"
        style="typo_souligne">https://readcoop.eu/transkribus/public-models</hi></ref></p></note>.</p>

        <div type="section1">
          <head style="T_1" subtype="level1">Des taux d’erreur très
          faibles</head>

          <p style="txt_Normal">La « performance » des modèles varie
          évidemment selon la nature des données qui ont servi à les entraîner
          et la nature des documents à transcrire. Ainsi, il est possible, à
          partir de quelques dizaines de pages de transcriptions fiables
          (vérifiées attentivement), d’entraîner pour les imprimés anciens des
          modèles dont les taux d’erreur se situent sous la barre des 1 %.
          Avec les manuscrits, la variété des graphies et la qualité des
          images demeurent les principaux enjeux à relever mais pour des
          documents dont la graphie est assez constante (tels que les greffes
          de notaires), 150 pages de transcriptions suffisent pour atteindre
          des taux d’erreurs sous les 5 %. Les modèles accessibles à tous,
          entraînés à partir de données fournies par plusieurs utilisateurs,
          sont basés sur des corpus de plusieurs milliers, voire de dizaines
          de milliers de pages. Ces modèles, qui prennent en charge une grande
          variété de graphies dans une langue donnée, atteignent facilement
          des taux d’erreurs de 5 % à 10 %.</p>
        </div>

        <div type="section1">
          <head style="T_1" subtype="level1">Un modèle d’affaire
          coopératif</head>

          <p style="txt_Normal">Transkribus n’est pas simplement un logiciel
          de transcription automatisée, c’est aussi une interface de
          traitement du patrimoine documentaire permettant l’enrichissement
          des transcriptions par le balisage et le partage des données, et
          offrant de puissants outils de recherche. Entre autres, la
          plateforme comporte un module de balisage de métadonnées calqué
          sensiblement sur les principes de la TEI, qui facilite
          l’enrichissement des transcriptions avec des données concernant les
          individus, les institutions, les lieux, les dates ou toute autre
          information jugée utile pour la recherche. Les métadonnées balisées
          peuvent même être ajoutées aux données d’entraînement des modèles de
          reconnaissance, si bien qu’une partie du balisage peut déjà être
          effectuée automatiquement par la machine.</p>

          <p style="txt_Normal">Contrairement à certains outils de RÉM (dont
          eScriptorium), l’utilisation des algorithmes de reconnaissance de
          texte (manuscrit comme imprimé) a un coût dans Transkribus, qui
          varie en fonction du statut de l’utilisateur (membre ou non de la
          READ-Coop, étudiants aux cycles supérieurs), du volume d’achat et de
          sa récurrence (achat unique, abonnement annuel ou mensuel).
          Néanmoins, le modèle d’affaire coopératif assure que les revenus
          sont réinvestis dans l’entretien et l’amélioration des serveurs
          (extrêmement puissants) et le développement continu de la plateforme
          et de ses algorithmes, ainsi que dans l’ajout d’outils facilitant la
          diffusion des contenus transcrits (<hi rend="italic"
          style="typo_Italique">read@search</hi>) ou la transcription
          participative (<hi rend="italic"
          style="typo_Italique">citizens&amp;science</hi>).</p>
        </div>
      </div>
    </body>
  </text>
</TEI>
