<?xml version="1.0" encoding="UTF-8"?>
<TEI change="metopes_publication#openedition"
     xmlns="http://www.tei-c.org/ns/1.0"
     xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
     xmlns:xs="http://www.w3.org/2001/XMLSchema"
     xmlns:xlink="http://www.w3.org/1999/xlink"
     xmlns:xi="http://www.w3.org/2001/XInclude"
     xmlns:ns="http://www.tei-c.org/ns/1.0"
     xmlns:mathml="http://www.w3.org/1998/Math/MathML"
     xmlns:loext="urn:org:documentfoundation:names:experimental:office:xmlns:loext:1.0"
     xmlns:dcr="http://www.isocat.org/ns/dcr">
  <teiHeader>
    <fileDesc>
      <titleStmt>
        <title type="main">L’intelligence artificielle, une ouverture du champ
        des possibles</title>

        <author role="aut"><name>Alix Chagué </name><affiliation><ref
        target="#aff01" type="affiliation"/></affiliation><idno
        type="IDREF">26158863X</idno></author>

        <author role="aut"><name>Laurent Romary </name><affiliation><ref
        target="#aff02" type="affiliation"/></affiliation><idno
        type="IDREF">060702494</idno><idno
        type="ORCID">0000000207560508</idno><idno
        type="ARK">http://catalogue.bnf.fr/ark:/12148/cb167144652</idno><idno
        type="HAL">laurentromary</idno><idno
        type="ISNI">0000000388795444</idno><idno
        type="VIAF">http://viaf.org/viaf/191637821</idno><idno
        type="WIKIDATA">Q57415841</idno></author>
      </titleStmt>

      <editionStmt>
        <edition><date>2022-10-05T17:20:00</date></edition>
      </editionStmt>

      <publicationStmt>
        <publisher/>

        <ab type="papier"><dimensions>
            <dim type="pagination">4-5</dim>
          </dimensions><date>01/10/2022</date></ab>

        <idno type="book"/>

        <ab type="lodel"><date/></ab>
      </publicationStmt>

      <sourceDesc>
        <p>Version Métopes : 3.0</p>

        <p>Written by OpenOffice</p>

        <bibl>Arabesques</bibl>
      </sourceDesc>
    </fileDesc>

    <encodingDesc>
      <tagsDecl>
        <rendition scheme="css" xml:id="none">color:black;</rendition>
      </tagsDecl>
    </encodingDesc>

    <profileDesc>
      <langUsage>
        <language ident="fr-FR"/>
      </langUsage>

      <textClass/>
    </profileDesc>

    <revisionDesc>
      <change when="2022-10-07T17:08:00"
      who="Marie-Pierre Roux">Révision</change>
    </revisionDesc>
  </teiHeader>

  <text xml:id="text">
    <front>
      <titlePage>
        <docTitle>
          <titlePart style="T_3_Article" type="main">L’intelligence
          artificielle, une ouverture du champ des possibles</titlePart>
        </docTitle>

        <docAuthor style="txt_auteur">Alix Chagué</docAuthor>

        <byline style="auteur_Courriel"><email><ref
        target="mailto:alix.chague@inria.fr">alix.chague@inria.fr</ref></email></byline>

        <byline style="auteur_Institution"><affiliation
        xml:id="aff01">Doctorante en humanités numériques au sein de l’équipe
        ALMnaCH (Inria – Paris) et du GREN (université de Montréal)
        </affiliation></byline>

        <docAuthor style="txt_auteur">Laurent Romary</docAuthor>

        <byline style="auteur_Courriel"><email><ref
        target="mailto:laurent.romary@inria.fr">laurent.romary@inria.fr</ref></email></byline>

        <byline style="auteur_Institution"><affiliation
        xml:id="aff02">Directeur de la culture et de l’information
        scientifiques, Inria </affiliation></byline>
      </titlePage>

      <argument>
        <p style="txt_chapo">En automatisant certaines tâches et en suscitant
        de nouvelles applications, l’IA offre aux bibliothèques un potentiel
        immense pour donner un nouveau souffle à leurs contenus, métadonnées
        ou documents numérisés.</p>
      </argument>
    </front>

    <body>
      <div type="chapitre" xml:id="mainDiv">
        <p style="txt_Normal">L’intelligence artificielle (IA) fait l’objet
        d’un intérêt tout particulier depuis quelques années.<hi rend="bold"
        style="typo_gras"> </hi>Pourtant, quand on l’envisage comme un
        ensemble de processus logiciels permettant d’effectuer des opérations
        d’analyse ou de décision que des humains seraient normalement
        susceptibles de réaliser, on se rend compte qu’elle est présente dans
        le paysage numérique depuis maintenant un bon demi-siècle. C’est une
        plus grande accessibilité de librairies logicielles, couplée à un
        accroissement des moyens de calcul, qui caractérise la période la plus
        récente. Ces composants logiciels permettent à plus de disciplines de
        s’en approprier les mécanismes et de les appliquer à de nouveaux
        contextes. Les bibliothèques n’échappent pas à ce mouvement et de
        nombreux projets ont montré le potentiel de l’IA pour donner un
        nouveau souffle aux contenus numériques, métadonnées ou documents
        numérisés disponibles dans les établissements.</p>

        <p style="txt_Normal">Dans les années 1980, les modèles qui avaient le
        plus de succès reposaient sur des méthodes logico-symboliques qui
        manipulaient des données, alors vues comme des concepts liés entre eux
        par des relations (ou prédicats logiques). Les modèles les plus
        récents s’articulent, eux, autour de méthodes statistiques par
        apprentissage. Ces méthodes reposent sur des architectures logicielles
        auxquelles on soumet de grandes quantités d’exemples et qui vont par
        itérations successives en abstraire les distributions statistiques,
        dans le cas d’apprentissages dit non supervisés, ou en généraliser
        l’analyse sur la base d’annotations préalablement fournies, dans le
        cas d’apprentissages supervisés.</p>

        <div type="section1">
          <head style="T_1" subtype="level1">De nouveaux champs des possibles
          en matière d’usage des contenus</head>

          <p style="txt_Normal">Comme on peut le constater dans les
          différentes contributions à ce numéro d’<hi rend="italic"
          style="typo_Italique">Arabesque, </hi>l’IA est susceptible d’être
          présente dans une large gamme d’applications touchant aux domaines
          des bibliothèques ou des institutions patrimoniales. Si l’IA permet
          dans certains cas d’automatiser des tâches plus ou moins complexes
          déjà effectuées manuellement ou semi-automatiquement, elle fait
          également survenir de nouvelles applications qui redéfinissent le
          champ des possibles en matière d’usage des contenus. Nous voyons par
          exemple apparaître différents types d’applications qui viennent
          soutenir l’organisation des fonds existants ou accompagner les
          processus de numérisation.</p>

          <p style="txt_Normal">Les premières applications intégrant des
          techniques d’apprentissage machine (<hi rend="italic"
          style="typo_Italique">machine learning</hi>) ont été utilisées pour
          accompagner les activités de catalogage, notamment pour l’indexation
          ou la classification automatiques de contenus. Cependant, les plus
          importantes avancées offertes par l’IA dans le domaine patrimonial
          sont liées à la création et l’enrichissement de contenus sur la base
          des opérations de numérisation conduites dans ces institutions
          depuis plusieurs années. Ainsi, les progrès extrêmement rapides de
          la reconnaissance automatique d’écriture manuscrite, avec la mise à
          disposition d’environnements libres tels que
          eScriptorium/Kraken<note n="1" place="foot" style="txt_Note"
          type="standard" xml:id="ftn1"><p> Voir l’article p.25 : «
          eScriptorium : une application libre pour la transcription
          automatique des manuscrits ».</p></note>, offrent la perspective
          d’accéder à l’intégralité des textes contenus dans de larges
          collections manuscrites. Des projets récents en collaboration avec
          les Archives nationales (LectAuRep<note n="2" place="foot"
          style="txt_Note" type="standard" xml:id="ftn2"><p> <ref
          target="https://lectaurep.hypotheses.org"><hi rend="underline"
          style="typo_souligne">https://lectaurep.hypotheses.org</hi></ref></p></note>)
          ou la Bibliothèque nationale de France (Gallicorpora<note n="3"
          place="foot" style="txt_Note" type="standard" xml:id="ftn3"><p> <ref
          target="https://www.bnf.fr/fr/les-projets-de-recherche%23bnf-gallicorpora"><hi
          rend="underline"
          style="typo_souligne">https://www.bnf.fr/fr/les-projets-de-recherche#bnf-gallicorpora</hi></ref></p></note>)
          ont ainsi démontré tout le potentiel de telles techniques. Plus
          récemment, les travaux menés autour de la suite GROBID permettent
          d’envisager de reconstituer la structure logique de documents
          numérisés, qu’il s’agisse d’entrées de dictionnaires ou encore de
          catalogues de ventes avec le projet DataCatalogue<note n="4"
          place="foot" style="txt_Note" type="standard" xml:id="ftn4"><p> <ref
          target="https://hal.inria.fr/hal-03618381"><hi rend="underline"
          style="typo_souligne">https://hal.inria.fr/hal-03618381</hi></ref></p></note><hi
          rend="bold" style="typo_gras"> </hi>en lien avec la BnF.</p>

          <p style="txt_Normal">Enfin, les méthodes d’apprentissage profond
          (<hi rend="italic" style="typo_Italique">deep learning</hi>) ont
          permis de créer des modèles génériques de codage des informations
          présentes dans des images ou des textes par simple apprentissage non
          supervisé. Il s’agit souvent de techniques dites de masquage qui
          forcent le modèle à prédire un élément graphique ou linguistique en
          fonction d’un contexte qui lui est fourni. Ces modèles (on parle par
          exemple de BERT ou de GPT3), même s’ils sont parfois invisibles dans
          les applications concrètes, jouent un rôle essentiel en termes de
          performance. Ils font aussi l’objet de critique ou d’analyse quand
          on constate les biais qu’ils peuvent porter en eux, en lien avec la
          nature des données d’apprentissage utilisées.</p>

          <figure>
            <graphic url="../icono/br/arabesques_107_page_04_dossier.jpg"/>

            <head style="titre_figure"> </head>

            <p style="ill-credits-sources">Crédit Adobe stock</p>
          </figure>
        </div>

        <div type="section1">
          <head style="T_1" subtype="level1">Les corpus de qualité,
          indispensables à l’ia</head>

          <p style="txt_Normal">La performance des différentes applications
          mentionnées ci-dessus reposent évidemment sur des modèles
          informatiques appropriés, associés à des capacités de calcul
          suffisantes, mais avant tout, elle découle directement de la
          production en amont de corpus de données de qualité. Ces données
          servent à la fois à entraîner les modèles d’apprentissage mais aussi
          à les tester pour en évaluer les résultats. Elles sont en général
          coûteuses à réunir, à nettoyer et à documenter correctement
          (origine, contenu, nature des annotations). C’est pourquoi on ne
          peut s’engager dans des activités intégrant de l’intelligence
          artificielle sans identifier très tôt une stratégie de gestion et si
          possible d’ouverture des données, qu’il s’agisse de données
          génériques issues du Web – par exemple le corpus OSCAR<note n="5"
          place="foot" style="txt_Note" type="standard" xml:id="ftn5"><p> <ref
          target="https://oscar-corpus.com"><hi rend="underline"
          style="typo_souligne">https://oscar-corpus.com</hi></ref></p></note><hi
          rend="bold" style="typo_gras"> </hi>– ou des données spécialisées
          telles que celle produites dans le cadre du projet LectAuRep avec
          les Archives nationales. La mise en commun de telles données passe
          souvent par l’établissement d’infrastructures de partage comme c’est
          le cas pour la reconnaissance d’écriture manuscrite avec
          l’initiative <hi rend="italic" style="typo_Italique">HTR-United.
          </hi>Enfin, dans une perspective plus large d’ouverture des données
          et de reproductibilité, il faut pouvoir associer à tout résultat
          d’entraînement non seulement les données source mais aussi les
          paramètres d’apprentissage (qui pilotent le comportement des modèles
          informatiques) et bien sûr les modèles obtenus. De cette façon, ils
          pourront être réutilisés ou comparés avec les résultats d’autres
          équipes.</p>

          <p style="txt_Normal">Alors que du point de vue de la recherche en
          informatique le domaine semble encore en pleine ébullition, il est
          difficile d’effectuer des prédictions précises sur les enjeux de
          recherche à venir. Si nous nous restreignons au lien entre IA et
          gestion des données patrimoniales, il y a clairement des progrès
          importants à faire pour faciliter son appropriation et son
          utilisation dans des environnements disposant de moindres ressources
          informatiques. Cela passe probablement par un investissement plus
          important dans les normes de représentation des données et
          d’interfaçage des processus d’IA dans des logiciels métiers. Il
          semble aussi essentiel d’aller vers des modèles plus sobres pour
          faciliter leur usage en dehors de grosses plateformes de calcul avec
          comme effet supplémentaire, mais non négligeable, d’en réduire
          l’empreinte carbone.</p>
        </div>

        <div type="section1">
          <head style="T_1" subtype="level1">Pensez autrement le
          numérique</head>

          <p style="txt_Normal">Pour les institutions patrimoniales, l’arrivée
          massive de l’intelligence artificielle dans leur processus de
          numérisation crée une réelle révolution intellectuelle et
          organisationnelle qu’il est indispensable d’anticiper et de bien
          intégrer à leurs missions plus classiques. Comme on l’a vu
          rapidement dans cette introduction, il ne s’agit plus de concevoir
          ces processus comme des logiciels à l’ancienne, dont on peut confier
          la réalisation à son département informatique ou à une
          sous-traitance sélectionnée à l’occasion. La mise en œuvre d’une
          application reposant sur l’apprentissage automatique implique de
          gérer sur le moyen terme non seulement des algorithmes, mais aussi
          des données de référence (la vérité de terrain) dont la sélection,
          la description ou l’enrichissement par le biais de campagnes
          d’annotation doivent intégrer en continu les spécialistes métier.
          Par ailleurs, il faut identifier des moyens de calculs proportionnés
          qui permettront de bien gérer les processus d’apprentissage machine
          en relation avec les volumes de données à traiter. Elles devront
          enfin définir des stratégies de R&amp;D qui puissent intégrer
          l’évolution rapide de l’état de l’art en la matière, probablement
          sur la base de collaborations stratégiques avec des laboratoires de
          recherche publics.</p>

          <p style="txt_Normal">Avant tout, les institutions concernées
          devront se donner la capacité de penser autrement le numérique en
          leur sein, pour ne pas simplement (bêtement, dirait-on…) le voir
          comme un appendice aux logiciels existants, notamment de gestion des
          informations ou de consultation par les usagers, mais bien de
          repenser l’ensemble du dispositif autour des données dans un
          continuum où catalogues et contenus sont susceptibles d’être à la
          fois consultés par les humains et analysés par des machines.</p>
        </div>
      </div>
    </body>
  </text>
</TEI>
