<?xml version="1.0" encoding="UTF-8"?>
<TEI change="metopes_publication#openedition"
     xmlns="http://www.tei-c.org/ns/1.0"
     xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
     xmlns:xs="http://www.w3.org/2001/XMLSchema"
     xmlns:xlink="http://www.w3.org/1999/xlink"
     xmlns:xi="http://www.w3.org/2001/XInclude"
     xmlns:ns="http://www.tei-c.org/ns/1.0"
     xmlns:mathml="http://www.w3.org/1998/Math/MathML"
     xmlns:loext="urn:org:documentfoundation:names:experimental:office:xmlns:loext:1.0"
     xmlns:dcr="http://www.isocat.org/ns/dcr">
  <teiHeader>
    <fileDesc>
      <titleStmt>
        <title type="main">Le projet ISSA : l’intelligence artificielle au
        service de la recherche bibliographique</title>

        <author role="aut"><name>Anne Toulet</name><affiliation><ref
        target="#aff01" type="affiliation"/></affiliation><idno
        type="IDREF">250349515</idno><idno
        type="ORCID">0000-0003-0463-0854</idno></author>

        <author role="aut"><name>Franck Michel </name><affiliation><ref
        target="#aff02" type="affiliation"/></affiliation><idno
        type="IDREF">20476940X</idno><idno
        type="ORCID">0000000190640463</idno><idno
        type="HAL">fmichel</idno><idno
        type="VIAF">http://viaf.org/viaf/65151050119033411337</idno></author>

        <author role="aut"><name>Andon Tchechmedjiev </name><affiliation><ref
        target="#aff03" type="affiliation"/></affiliation><idno
        type="IDREF">223391638</idno><idno
        type="ORCID">0000-0003-3749-5521</idno><idno
        type="HAL">andon-tchechmedjiev</idno><idno
        type="VIAF">http://viaf.org/viaf/82151836614320402883</idno></author>
      </titleStmt>

      <editionStmt>
        <edition><date>2022-10-05T17:38:00</date></edition>
      </editionStmt>

      <publicationStmt>
        <publisher/>

        <ab type="papier"><dimensions>
            <dim type="pagination">6-7</dim>
          </dimensions><date>01/10/2022</date></ab>

        <idno type="book"/>

        <ab type="lodel"><date/></ab>
      </publicationStmt>

      <sourceDesc>
        <p>Version Métopes : 3.0</p>

        <p>Written by OpenOffice</p>

        <bibl>Arabesques</bibl>
      </sourceDesc>
    </fileDesc>

    <encodingDesc>
      <tagsDecl>
        <rendition scheme="css" xml:id="none">color:black;</rendition>
      </tagsDecl>
    </encodingDesc>

    <profileDesc>
      <langUsage>
        <language ident="fr-FR"/>
      </langUsage>

      <textClass/>
    </profileDesc>

    <revisionDesc>
      <change when="2022-10-07T15:31:00"
      who="Marie-Pierre Roux">Révision</change>
    </revisionDesc>
  </teiHeader>

  <text xml:id="text">
    <front>
      <titlePage>
        <docTitle>
          <titlePart style="T_3_Article" type="main">Le projet ISSA :
          l’intelligence artificielle au service de la recherche
          bibliographique</titlePart>
        </docTitle>

        <docAuthor style="txt_auteur">Anne Toulet</docAuthor>

        <byline style="auteur_Courriel"><email><ref
        target="mailto:anne.toulet@cirad.fr">anne.toulet@cirad.fr</ref></email></byline>

        <byline style="auteur_Institution"><affiliation
        xml:id="aff01">Coordinatrice scientifique du projet ISSA pour le Cirad
        </affiliation></byline>

        <docAuthor style="txt_auteur">Franck Michel</docAuthor>

        <byline style="auteur_Courriel"><email><ref
        target="mailto:fmichel@i3s.unice.fr">fmichel@i3s.unice.fr
        </ref></email></byline>

        <byline style="auteur_Institution"><affiliation
        xml:id="aff02">Coordinateur scientifique du projet ISSA pour Inria
        </affiliation></byline>

        <docAuthor style="txt_auteur">Andon Tchechmedjiev</docAuthor>

        <byline style="auteur_Courriel"><email><ref
        target="mailto:andon.tchechmedjiev@mines-ales.fr">andon.tchechmedjiev@mines-ales.fr</ref></email></byline>

        <byline style="auteur_Institution"><affiliation
        xml:id="aff03">Coordinateur scientifique du projet ISSA pour IMT Mines
        Alès </affiliation></byline>
      </titlePage>

      <argument>
        <p style="txt_chapo">Porté par trois institutions, ISSA, projet
        d’indexation automatique des publications d’une archive scientifique
        ouverte, a été conçu comme un outil d’aide aux recherches
        bibliographiques complexes.</p>
      </argument>
    </front>

    <body>
      <div type="chapitre" xml:id="mainDiv">
        <p style="txt_Normal">Lauréat de l’appel à projet CollEx-Persée<note
        n="1" place="foot" style="txt_Note" type="standard" xml:id="ftn1"><p>
        <ref target="https://www.collexpersee.eu"><hi rend="underline"
        style="typo_souligne">https://www.collexpersee.eu</hi></ref></p></note><hi
        rend="bold" style="typo_gras"> </hi>en 2020<hi rend="bold"
        style="typo_gras">, </hi>le projet ISSA<note n="2" place="foot"
        style="txt_Note" type="standard" xml:id="ftn2"><p> <ref
        target="https://issa.cirad.fr"><hi rend="underline"
        style="typo_souligne">https://issa.cirad.fr</hi></ref></p></note><hi
        rend="bold" style="typo_gras"> </hi>– Indexation Sémantique d’une
        archive scientifique et Services Associés pour la science ouverte –
        est porté par trois institutions : le Cirad<note n="3" place="foot"
        style="txt_Note" type="standard" xml:id="ftn3"><p> <ref
        target="https://www.cirad.fr"><hi rend="underline"
        style="typo_souligne">https://www.cirad.fr</hi></ref></p></note>,
        Inria Sophia Antipolis Méditerranée<note n="4" place="foot"
        style="txt_Note" type="standard" xml:id="ftn4"><p> <ref
        target="https://inria.cl/en/centre-inria-sophia-antipolis-mediterranee"><hi
        rend="underline"
        style="typo_souligne">https://inria.cl/en/centre-inria-sophia-antipolis-mediterranee</hi></ref></p></note><hi
        rend="bold" style="typo_gras"> </hi>et IMT Mines Alès<note n="5"
        place="foot" style="txt_Note" type="standard" xml:id="ftn5"><p> <ref
        target="https://www.imt-mines-ales.fr"><hi rend="underline"
        style="typo_souligne">https://www.imt-mines-ales.fr</hi></ref></p></note>.
        La motivation d’origine, portée par un besoin d’indexation automatique
        des publications d’une archive scientifique ouverte, s’est rapidement
        enrichie avec des objectifs plus ambitieux de services de recherche et
        de visualisation innovants. Les administrateurs d’archives ouvertes
        gèrent une grande quantité de métadonnées parmi lesquelles les
        mots-clés qui viennent décrire les publications. Cette indexation est
        réalisée manuellement la plupart du temps, soit par les déposants
        eux-mêmes (mots-clés libres en général), soit par des documentalistes
        spécialistes qui utilisent des descripteurs thématiques ou
        géographiques issus d’un vocabulaire contrôlé ou d’un thésaurus. Cette
        activité est exigeante et chronophage, et l’automatisation de
        l’indexation constitue un besoin clairement identifié par les services
        d’information scientifique et technique (IST) ou les
        bibliothèques.</p>

        <p style="txt_Normal">Par ailleurs, ces dernières années, plusieurs
        évolutions ont radicalement transformé la façon dont les chercheurs et
        les professionnels en IST interagissent avec la littérature
        scientifique. En effet, la quantité de publications augmente en
        flèche, que ce soit dans les revues, les conférences ou par le biais
        de dépôts de prépublications (par exemple arxiv.org), de sorte qu’il
        est de plus en plus difficile de trouver des articles correspondants à
        des critères de recherche parfois très spécifiques.</p>

        <div type="section1">
          <head style="T_1" subtype="level1">La place des archives ouvertes
          dans l’écosystème de la littérature scientifique</head>

          <p style="txt_Normal">Dans ce contexte, les archives scientifiques
          ouvertes jouent un rôle central pour appuyer les recherches
          bibliographiques. Cependant, les services de recherche classiques à
          base de mots-clés proposés nativement par les plateformes ne
          parviennent souvent pas à saisir la richesse des associations
          sémantiques entre les articles, de sorte que certaines recherches
          complexes trouvent difficilement des réponses. Il est donc
          nécessaire de développer de nouveaux outils qui permettent aux
          utilisateurs de s’orienter dans cette masse de connaissances.</p>

          <p style="txt_Normal">Pour relever ces défis, le projet ISSA, guidé
          par les objectifs de la science ouverte et s’adossant aux principes
          FAIR, vise à :</p>

          <p style="txt_Normal">• Fournir un pipeline intégré, générique et
          réutilisable pour l’analyse et le traitement des articles d’une
          archive scientifique ouverte</p>

          <p style="txt_Normal">• Traduire le résultat en un index sémantique
          représenté sous la forme d’un graphe de connaissance RDF<note n="6"
          place="foot" style="txt_Note" type="standard" xml:id="ftn6"><p>
          Resource Description Framework : langage de base du Web sémantique
          développé par le W3C </p></note><hi rend="bold" style="typo_gras">
          </hi></p>

          <p style="txt_Normal">• Développer des services de recherche et de
          visualisation innovants qui exploitent cet index sémantique pour
          permettre aux utilisateurs d’explorer les règles d’association
          thématique, les réseaux de copublications, les articles avec des
          sujets cooccurrents, etc.</p>

          <figure>
            <graphic url="../icono/br/arabesques_107_page_07_dossier-fig01.jpg"/>

            <head style="titre_figure">Figure 1 - Recherche par règles
            d’association</head>
          </figure>

          <figure>
            <graphic url="../icono/br/arabesques_107_page_07_dossier-fig02.jpg"/>

            <head style="titre_figure">Figure 2 - Recherche par cooccurrence
            de concepts</head>
          </figure>

          <figure>
            <graphic url="../icono/br/arabesques_107_page_07_dossier-fig03.jpg"/>

            <head style="titre_figure">Figure 3 - Le jeu de données ISSA
            Agritrop dans le LOD</head>
          </figure>
        </div>

        <div type="section1">
          <head style="T_1" subtype="level1">Agritrop, cas d’usage du projet
          issa</head>

          <p style="txt_Normal">Pour démontrer la pertinence et l’efficacité
          de la solution, le projet ISSA s’appuie sur un cas d’usage qui sert
          de preuve de concept : Agritrop<note n="7" place="foot"
          style="txt_Note" type="standard" xml:id="ftn7"><p> <ref
          target="https://agritrop.cirad.fr"><hi rend="underline"
          style="typo_souligne">https://agritrop.cirad.fr</hi></ref></p></note>,
          l’archive ouverte institutionnelle du Cirad, contenant plus de
          110 000 ressources dont 12 000 articles en libre accès, spécialisée
          dans les domaines de l’agronomie, de la biodiversité et du
          développement durable. Le thésaurus multilingue Agrovoc<note n="8"
          place="foot" style="txt_Note" type="standard" xml:id="ftn8"><p> <ref
          target="https://www.fao.org/agrovoc"><hi rend="underline"
          style="typo_souligne">https://www.fao.org/agrovoc</hi></ref></p></note>,
          géré par l’Organisation des nations unies pour l’alimentation et
          l’agriculture, est utilisé pour l’indexation comme vocabulaire de
          référence spécifique au domaine.</p>

          <p style="txt_Normal">Le processus de construction du graphe de
          connaissance (ou index sémantique) fait appel à plusieurs techniques
          d’intelligence artificielle : traitement du langage naturel,
          ingénierie des connaissances, Web sémantique et données liées. La
          première étape consiste à récupérer les informations contenues dans
          l’archive ouverte grâce au protocole OAI-PMH<note n="9" place="foot"
          style="txt_Note" type="standard" xml:id="ftn9"><p> <ref
          target="http://www.openarchives.org/pmh"><hi rend="underline"
          style="typo_souligne">http://www.openarchives.org/pmh</hi></ref></p></note>.
          Dans un premier temps, toutes les métadonnées récupérées sont
          transformées au format RDF et viennent peupler l’index sémantique :
          titre, auteurs, résumé, licence, date, langue, identifiants de la
          publication, lien les PDF en accès libre, etc. Par la suite, les
          données textuelles des articles telles que le titre, le résumé ou le
          corps du texte sont traitées afin d’en extraire automatiquement des
          descripteurs thématiques et géographiques et des entités nommées,
          c’est à dire des mentions d’entités reconnaissables dans le
          texte.</p>

          <p style="txt_Normal">Descripteurs et entités nommées sont liés à
          des bases de connaissance généralistes comme Wikidata<note n="10"
          place="foot" style="txt_Note" type="standard" xml:id="ftn10"><p>
          <ref target="https://www.wikidata.org/wiki/Wikidata:Main_Page"><hi
          rend="underline"
          style="typo_souligne">https://www.wikidata.org/wiki/Wikidata:Main_Page</hi></ref></p></note><hi
          rend="bold" style="typo_gras"> </hi>et DBpedia<note n="11"
          place="foot" style="txt_Note" type="standard" xml:id="ftn11"><p>
          <ref target="https://www.dbpedia.org"><hi rend="underline"
          style="typo_souligne">https://www.dbpedia.org</hi></ref></p></note>,
          géographiques comme GeoNames<note n="12" place="foot"
          style="txt_Note" type="standard" xml:id="ftn12"><p> <ref
          target="http://www.geonames.org"><hi rend="underline"
          style="typo_souligne">http://www.geonames.org</hi></ref></p></note><hi
          rend="bold" style="typo_gras"> </hi>ou encore à des ressources
          terminologiques plus spécifiques adaptées à un domaine scientifique
          donné, par exemple le thésaurus Agrovoc dans le cas d’Agritrop. Ces
          informations sont transformées en RDF et viennent enrichir à leur
          tour le graphe de connaissance qui contient alors toutes les
          informations utiles à la description des publications de l’archive –
          métadonnées classiques et pour les articles en accès libre,
          descripteurs thématiques et entités nommées liées. L’ensemble,
          décrit selon les formats du web sémantique, est naturellement relié
          au Web des données et interrogeable via un point d’accès SPARQL
          (langage de requête de données RDF). Les connaissances de milliers
          de publications produites par des milliers de chercheurs se
          retrouvent ainsi connectées, publiées sur le Web et
          interrogeables !</p>
        </div>

        <div type="section1">
          <head style="T_1" subtype="level1">Proposition de services à valeur
          ajoutée</head>

          <p style="txt_Normal">Le graphe de connaissance sert de clé de voûte
          au développement d’outils de recherche et de visualisation.</p>

          <p style="txt_Normal">Un premier résultat quasi immédiat est la
          possibilité de consulter les notices de l’archive ouverte par le
          biais d’une visualisation enrichie : métadonnées classiques, résumé
          avec entités nommées surlignées et liens vers les bases de
          connaissance, affichage des descripteurs obtenus automatiquement,
          visualisation cartographique des entités nommées géographiques du
          texte.</p>

          <p style="txt_Normal">Deux autres outils de visualisation permettent
          d’aider à la résolution de requêtes complexes :</p>

          <p style="txt_Normal">• ARViz extrait et visualise des règles
          d’association reliant les descripteurs thématiques des articles.</p>

          <p style="txt_Normal">La <hi rend="italic"
          style="typo_Italique">Figure 1 </hi>illustre comment les concepts
          mentionnés dans les articles de l’archive peuvent être utilisés pour
          découvrir et visualiser les règles d’association. Dans l’exemple,
          les articles mentionnant les concepts Covid-19 et sécurité
          alimentaire (a) mentionnent fréquemment le concept de pandémie
          (b).</p>

          <p style="txt_Normal">• LDViz permet quant à lui d’explorer les
          réseaux sémantiques formés par des entités aussi variées que des
          descripteurs thématiques, des auteurs, des institutions, etc. En
          visualisant ces réseaux, LDViz permet aux utilisateurs de résoudre
          des questions de compétence complexes.</p>

          <p style="txt_Normal">Avec différentes techniques de visualisation,
          la <hi rend="italic" style="typo_Italique">Figure 2 </hi>montre
          comment un utilisateur peut rechercher des articles mentionnant le
          concept de santé ou l’un de ses sous-concepts (a) et (b), découvrir
          qu’il est souvent mentionné avec le changement climatique (c), et
          obtenir la liste des publications associées (d) et leur répartition
          dans le temps (e).</p>

          <p style="txt_Normal">S’inscrivant pleinement dans la dynamique de
          la science ouverte et des données <hi rend="italic"
          style="typo_Italique">FAIR</hi>, le travail présenté est rendu
          disponible sous licence ouverte avec tous les documents
          d’accompagnement nécessaires pour faciliter sa réutilisation. Le jeu
          de données ISSA généré dans le cas Agritrop est publié sur le <hi
          rend="italic" style="typo_Italique">Linked Open Data Cloud
          </hi>également sous licence ouverte <hi rend="italic"
          style="typo_Italique">(Figure 3)</hi>.</p>
        </div>
      </div>
    </body>
  </text>
</TEI>
