<?xml version="1.0" encoding="UTF-8"?>
<TEI change="metopes_publication#openedition"
     xmlns="http://www.tei-c.org/ns/1.0"
     xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
     xmlns:xs="http://www.w3.org/2001/XMLSchema"
     xmlns:xlink="http://www.w3.org/1999/xlink"
     xmlns:xi="http://www.w3.org/2001/XInclude"
     xmlns:ns="http://www.tei-c.org/ns/1.0"
     xmlns:mathml="http://www.w3.org/1998/Math/MathML"
     xmlns:loext="urn:org:documentfoundation:names:experimental:office:xmlns:loext:1.0"
     xmlns:dcr="http://www.isocat.org/ns/dcr">
  <teiHeader>
    <fileDesc>
      <titleStmt>
        <title type="main"/>

        <author role="aut"><name>Éric Jeangirard</name><affiliation><ref
        target="#aff01" type="affiliation"/></affiliation><idno
        type="IDREF">242241344</idno><idno
        type="ORCID">0000-0002-3767-7125</idno><idno
        type="HAL">eric-jeangirard</idno><idno
        type="VIAF">http://viaf.org/viaf/60158367618301280175</idno></author>
      </titleStmt>

      <editionStmt>
        <edition><date>2022-10-05T18:37:00</date></edition>
      </editionStmt>

      <publicationStmt>
        <publisher/>

        <ab type="papier"><dimensions>
            <dim type="pagination">10-11</dim>
          </dimensions><date>01/10/2022</date></ab>

        <idno type="book"/>

        <ab type="lodel"><date/></ab>
      </publicationStmt>

      <sourceDesc>
        <p>Version Métopes : 3.0</p>

        <p>Written by OpenOffice</p>

        <bibl>Arabesques</bibl>
      </sourceDesc>
    </fileDesc>

    <encodingDesc>
      <tagsDecl>
        <rendition scheme="css" xml:id="none">color:black;</rendition>
      </tagsDecl>
    </encodingDesc>

    <profileDesc>
      <langUsage>
        <language ident="fr-FR"/>
      </langUsage>

      <textClass/>
    </profileDesc>

    <revisionDesc>
      <change when="2022-10-14T10:59:00"
      who="Marie-Pierre Roux">Révision</change>
    </revisionDesc>
  </teiHeader>

  <text xml:id="text">
    <front>
      <titlePage>
        <docTitle>
          <titlePart style="T_3_Article" type="main">L’utilisation de
          l’apprentissage automatique dans le Baromètre de la science
          ouverte : une façon de réconcilier bibliométrie et science
          ouverte ?</titlePart>
        </docTitle>

        <docAuthor style="txt_auteur">Éric Jeangirard</docAuthor>

        <byline style="auteur_Courriel"><email><ref
        target="mailto:eric.jeangirard@recherche.gouv.fr">eric.jeangirard@recherche.gouv.fr</ref></email></byline>

        <byline style="auteur_Institution"><affiliation xml:id="aff01">Data
        Scientist, Département des outils d’aide la décision, SIES –
        MESR</affiliation></byline>
      </titlePage>

      <argument>
        <p style="txt_chapo">Pensé comme un outil de pilotage et de suivi, le
        Baromètre de la science ouverte utilise l’intelligence artificielle
        pour optimiser ses missions.</p>
      </argument>
    </front>

    <body>
      <div type="chapitre" xml:id="mainDiv">
        <p style="txt_Normal">Dès le lancement du Plan national pour la
        science ouverte (PNSO) en 2018, le Baromètre de la science ouverte
        (BSO) a été pensé comme un outil de suivi et de pilotage de politiques
        publiques.<hi rend="bold" style="typo_gras"> </hi>D’abord centré sur
        l’accès ouvert aux publications, le BSO a permis en quelques mois
        d’objectiver un « point de départ » du taux d’ouverture des
        publications françaises. Le BSO a vocation à élargir son périmètre, en
        s’intéressant à d’autres productions que les seules publications, et à
        approfondir ses analyses pour fournir des éléments d’aide à la
        compréhension et à la décision pour ses différents utilisateurs
        (décideurs au niveau national ou établissement, négociateurs,
        financeurs, chercheurs).</p>

        <div type="section1">
          <head style="T_1" subtype="level1">Une alliance objective avec les
          outils d’apprentissage automatique</head>

          <p style="txt_Normal">D’autres outils (internationaux notamment) de
          suivi de la science ouverte préexistaient au BSO, alors pourquoi en
          créer un nouveau ? D’abord, parce que les outils existants utilisent
          des données issues de bases propriétaires, ni partageables, ni
          réutilisables et introduisent des biais de couverture. De plus, le
          Ministère voulait disposer d’un outil souverain, adapté à ses
          propres besoins de suivi. Néanmoins, le pragmatisme conduit la
          plupart des institutions à se tourner vers les bases de données
          propriétaires. Notamment, les champs disciplinaires et les
          affiliations ne sont pas ouvertes en général (les affiliations sont
          absentes de Crossref dans plus de 75 % des cas en 2021). Impossible
          de suivre l’ouverture des publications sans analyser les tendances
          d’une discipline à l’autre qui sont le reflet de pratiques
          différentes entre les communautés. De même, il est nécessaire de
          connaître les pays d’affiliation : seules les publications avec une
          affiliation française sont analysées dans le BSO, encore faut-il
          savoir si une publication a une affiliation française !</p>

          <p style="txt_Normal">Le manque de métadonnées ouvertes est parfois
          vécu comme un obstacle infranchissable, plaçant certaines
          institutions dans la situation de devoir avoir recours à des données
          propriétaires, dans l’attente de la mise en place, sur un temps plus
          long et incertain, d’infrastructures ouvertes et centralisées de
          métadonnées riches. Une troisième voie mérite d’être pensée, et
          l’apprentissage automatique s’avère être un outil déterminant dans
          sa mise en œuvre.</p>
        </div>

        <div type="section1">
          <head style="T_1" subtype="level1">Transformer des bases existantes
          en données d’apprentissage</head>

          <p style="txt_Normal">L’apprentissage automatique recouvre de
          nombreuses méthodes. Mais un invariant demeure : l’apprentissage
          automatique utilise des données d’apprentissage (d’entraînement)
          pour construire un modèle, permettant ensuite d’enrichir de
          nouvelles données non rencontrées dans les données d’apprentissage.
          Il faut donc d’une part des données d’apprentissage suffisamment
          riches pour construire un modèle pertinent et d’autre part des
          données à enrichir grâce au modèle. Ces données à traiter doivent
          porter un minimum d’informations, sans quoi le modèle sera incapable
          de calculer quoi que ce soit d’utile.</p>

          <p style="txt_Normal">Dans le cadre du BSO, la détection d’accès
          ouvert repose sur l’outil (ouvert) <hi rend="italic"
          style="typo_Italique">Unpaywall</hi><note n="1" place="foot"
          style="txt_Note" type="standard" xml:id="ftn1"><p> <ref
          target="https://unpaywall.org"><hi rend="underline"
          style="typo_souligne">https://unpaywall.org</hi></ref></p></note>.
          Les probléma­tiques principales restantes portent sur l’inférence
          des champs disciplinaires et des pays d’affiliation.</p>

          <p style="txt_Normal">Nous faisons l’hypothèse qu’il est possible de
          déterminer une discipline à partir du titre du document et de la
          revue. Le module <hi rend="italic" style="typo_Italique">scientific
          tagger</hi><note n="2" place="foot" style="txt_Note" type="standard"
          xml:id="ftn2"><p> <ref
          target="https://github.com/dataesr/scientific_tagger"><hi
          rend="underline"
          style="typo_souligne">https://github.com/dataesr/scientific_tagger</hi></ref></p></note><hi
          rend="bold" style="typo_gras"> </hi>utilise les bases PASCAL et
          FRANCIS<note n="3" place="foot" style="txt_Note" type="standard"
          xml:id="ftn3"><p> <ref target="https://pascal-francis.inist.fr"><hi
          rend="underline"
          style="typo_souligne">https://pascal-francis.inist.fr</hi></ref></p></note><hi
          rend="bold" style="typo_gras"> </hi>comme bases d’apprentissage. Le
          modèle est construit avec l’algorithme <hi rend="italic"
          style="typo_Italique">fastText</hi><hi rend="bold"
          style="typo_gras"><note n="4" place="foot" style="txt_Note"
          type="standard" xml:id="ftn4"><p> <ref
          target="https://fasttext.cc"><hi rend="underline"
          style="typo_souligne">https://fasttext.cc</hi></ref></p></note></hi><hi
          rend="bold" style="typo_gras"> </hi>qui a le mérite d’être très
          léger et rapide. Une approche similaire est mise en place pour
          inférer la langue ainsi qu’une classification spécifique au domaine
          biomédical<note n="5" place="foot" style="txt_Note" type="standard"
          xml:id="ftn5"><p> E. Jeangirard ; Content-based subject
          classification at article level in biomedical context ; 2021 ;
          hal-03212544</p></note>.</p>

          <p style="txt_Normal">Pour les pays d’affiliation, l’obstacle à
          franchir est plus haut : les métadonnées ouvertes ne contiennent en
          général pas d’information sur les affiliations. Le problème ne porte
          pas sur les données d’entraînement mais bien sur les données à
          traiter. Sans données à traiter, l’algorithme se retrouve dans une
          impasse. Impasse qui semble pourtant paradoxale : les affiliations
          sont à la fois sous nos yeux à la première page des publications et
          invisibles dans les métadonnées ouvertes. Un outil de collecte et
          publications a été développé. Il en extrait les affiliations plein
          texte. Le module <hi rend="italic"
          style="typo_Italique">affiliation-matcher</hi><hi rend="italic"
          style="typo_Italique"><note n="6" place="foot" style="txt_Note"
          type="standard" xml:id="ftn6"><p> <ref
          target="https://github.com/dataesr/affiliation-matcher"><hi
          rend="underline"
          style="typo_souligne">https://github.com/dataesr/affiliation-matcher</hi></ref></p></note></hi><hi
          rend="bold" style="typo_gras"> </hi>permet à partir d’une
          affiliation plein texte (Université de Paris Dauphine, France) de
          deviner le pays associé (France). Cela peut être plus subtil qu’il
          n’y paraît dans cet exemple. Ainsi, la présence du mot « France »
          dans l’affiliation n’est ni nécessaire (CERMICS Université Paris
          Est), ni suffisante (Hôtel Dieu de France, Beirut, Lebanon).</p>

          <p style="txt_Normal">Le module <hi rend="italic"
          style="typo_Italique">affiliation-matcher </hi>s’appuie sur des
          données référentielles (notamment le RNSR et ROR<note n="7"
          place="foot" style="txt_Note" type="standard" xml:id="ftn7"><p> <ref
          target="https://ror.org"><hi rend="underline"
          style="typo_souligne">https://ror.org</hi></ref></p></note>) qui
          jouent le rôle de données d’apprentissage. L’algorithme en place ne
          relève néanmoins pas entièrement de l’apprentissage automatique car
          les règles d’appariement ne sont pas décidées par la machine, mais
          contrôlées par l’utilisateur du module.</p>

          <figure>
            <graphic url="../icono/br/arabesques_107_page_11_dossier.jpg"/>

            <figDesc>Une image contenant flou Description générée
            automatiquement</figDesc>

            <head style="titre_figure"> </head>

            <p style="ill-credits-sources">Crédit Adobe stock</p>
          </figure>
        </div>

        <div type="section1">
          <head style="T_1" subtype="level1">L’extension du BSO aux données de
          la recherche et codes logiciels amène à l’utilisation de nouveaux
          outils</head>

          <p style="txt_Normal">Le deuxième Plan national pour la science
          ouverte (PNSO2)<note n="8" place="foot" style="txt_Note"
          type="standard" xml:id="ftn8"><p> <ref
          target="https://www.ouvrirlascience.fr/deuxieme-plan-national-pour-la-science-ouverte"><hi
          rend="underline"
          style="typo_souligne">https://www.ouvrirlascience.fr/deuxieme-plan-national-pour-la-science-ouverte</hi></ref></p></note><hi
          rend="bold" style="typo_gras"> </hi>fixe comme objectif au BSO de
          proposer de nouveaux indicateurs de suivi au-delà des publications.
          Dans sa déclinaison santé, le BSO analyse notamment les essais
          cliniques. À présent, nous travaillons à l’analyse des données de la
          recherche et des codes logiciels. Une piste suivie consiste à tenter
          de repérer dans le texte des publications, les références aux
          logiciels et aux données de la recherche. Il faut donc avoir accès
          au <hi rend="italic" style="typo_Italique">full-text </hi>des
          publications, et disposer d’un moyen pour y repérer une mention de
          logiciel ou de jeu de données. C’est un niveau supplémentaire de
          complexité. L’accès aux <hi rend="italic"
          style="typo_Italique">full-text </hi>est encore très difficile (hors
          accès ouvert) malgré l’existence d’accords TDM (<hi rend="italic"
          style="typo_Italique">Text and Data mining</hi>) dans les contrats
          avec certains éditeurs et les dispositions liées à la fouille de
          texte dans un décret<note n="9" place="foot" style="txt_Note"
          type="standard" xml:id="ftn9"><p> <ref
          target="https://www.legifrance.gouv.fr/jorf/id/JORFTEXT000045960058"><hi
          rend="underline"
          style="typo_souligne">https://www.legifrance.gouv.fr/jorf/id/JORFTEXT000045960058</hi></ref></p></note><hi
          rend="bold" style="typo_gras"> </hi>récent. De plus, ce type d’outil
          de détection fait appel à des techniques dites « d’apprentissage
          profond » (<hi rend="italic" style="typo_Italique">deep
          learning</hi>). Nous travaillons avec Patrice Lopez (<hi
          rend="italic" style="typo_Italique">science-miner</hi><note n="10"
          place="foot" style="txt_Note" type="standard" xml:id="ftn10"><p>
          <ref target="https://science-miner.com"><hi rend="underline"
          style="typo_souligne">https://science-miner.com</hi></ref></p></note>),
          un des experts internationaux de l’utilisation des techniques
          d’apprentissage profond sur les textes scientifiques.</p>
        </div>

        <div type="section1">
          <head style="T_1" subtype="level1">Ne pas lâcher la « proie » du
          réel pour « l’ombre des vérités algorithmiques »<hi rend="bold"
          style="typo_gras"><note n="11" place="foot" style="txt_Note"
          type="standard" xml:id="ftn11"><p> R. Gori, 2022, La Fabrique de nos
          servitudes.</p></note></hi></head>

          <p style="txt_Normal">Quelles que soient les données et les
          techniques utilisées, les algorithmes d’apprentissage automatique
          produisent des erreurs, que nous tentons de contrôler et de mesurer.
          Une étude récente de Lauranne Chaignon et Daniel Egret<note n="12"
          place="foot" style="txt_Note" type="standard" xml:id="ftn12"><p> L.
          Chaignon, D. Egret ; Identifying scientific publications countrywide
          and measuring their open access: The case of the French Open Science
          Barometer (BSO). Quantitative Science Studies 2022; doi
          :10.1162/qss_a_00179.</p></note><hi rend="bold" style="typo_gras">
          </hi>a validé l’efficacité de la méthode de détection des
          affiliations françaises du BSO en menant une comparaison avec les
          principales bases bibliométriques.</p>

          <p style="txt_Normal">L’utilisation de l’apprentissage automatique
          reste un moyen fiable de pallier le manque de métadonnées ouvertes
          et riches. Des réseaux d’échanges d’informations peuvent aussi se
          structurer, comme nous le proposons avec les déclinaisons locales du
          BSO<note n="13" place="foot" style="txt_Note" type="standard"
          xml:id="ftn13"><p> <ref
          target="https://barometredelascienceouverte.esr.gouv.fr/about/declinaisons"><hi
          rend="underline"
          style="typo_souligne">https://barometredelascienceouverte.esr.gouv.fr/about/declinaisons</hi></ref></p></note>.</p>

          <p style="txt_Normal">Le développement des outils avancés
          d’enrichissement automatique ne doit donc pas nous faire oublier un
          objectif essentiel, la poursuite de la mise en place d’un réseau
          d’infrastructures ouvertes, proposant des métadonnées riches pour
          rendre à la communauté scientifique le contrôle de l’information
          qu’elle produit elle-même.</p>
        </div>
      </div>
    </body>
  </text>
</TEI>
