<author role="aut"><name>Éric Jeangirard</name><affiliation><ref target="#aff01" type="affiliation"/></affiliation><idno type="IDREF">242241344</idno><idno type="ORCID">0000-0002-3767-7125</idno><idno type="HAL">eric-jeangirard</idno><idno type="VIAF">http://viaf.org/viaf/60158367618301280175</idno></author> </titleStmt> <editionStmt> <edition><date>2022-10-05T18:37:00</date></edition> </editionStmt> <publicationStmt> <publisher/> <ab type="papier"><dimensions> <dim type="pagination">10-11</dim> </dimensions><date>01/10/2022</date></ab> <idno type="book"/> <ab type="lodel"><date/></ab> </publicationStmt> <sourceDesc> Version Métopes : 3.0 Written by OpenOffice <bibl>Arabesques</bibl> </sourceDesc> </fileDesc> <encodingDesc> <tagsDecl> <rendition scheme="css" xml:id="none">color:black;</rendition> </tagsDecl> </encodingDesc> <profileDesc> <langUsage> <language ident="fr-FR"/> </langUsage> <textClass/> </profileDesc> <revisionDesc> <change when="2022-10-14T10:59:00" who="Marie-Pierre Roux">Révision</change> </revisionDesc> </teiHeader> <text xml:id="text"> <front> <titlePage> <docTitle> <titlePart style="T_3_Article" type="main">L’utilisation de l’apprentissage automatique dans le Baromètre de la science ouverte : une façon de réconcilier bibliométrie et science ouverte ?</titlePart> </docTitle> <docAuthor style="txt_auteur">Éric Jeangirard</docAuthor> <byline style="auteur_Courriel"><email><ref target="mailto:eric.jeangirard@recherche.gouv.fr">eric.jeangirard@recherche.gouv.fr</ref></email></byline> <byline style="auteur_Institution"><affiliation xml:id="aff01">Data Scientist, Département des outils d’aide la décision, SIES – MESR</affiliation></byline> </titlePage> <argument> Pensé comme un outil de pilotage et de suivi, le Baromètre de la science ouverte utilise l’intelligence artificielle pour optimiser ses missions. </argument> </front> <body> <div type="chapitre" xml:id="mainDiv"> Dès le lancement du Plan national pour la science ouverte (PNSO) en 2018, le Baromètre de la science ouverte (BSO) a été pensé comme un outil de suivi et de pilotage de politiques publiques.<hi rend="bold" style="typo_gras"> </hi>D’abord centré sur l’accès ouvert aux publications, le BSO a permis en quelques mois d’objectiver un « point de départ » du taux d’ouverture des publications françaises. Le BSO a vocation à élargir son périmètre, en s’intéressant à d’autres productions que les seules publications, et à approfondir ses analyses pour fournir des éléments d’aide à la compréhension et à la décision pour ses différents utilisateurs (décideurs au niveau national ou établissement, négociateurs, financeurs, chercheurs). <div type="section1"> <head style="T_1" subtype="level1">Une alliance objective avec les outils d’apprentissage automatique</head> D’autres outils (internationaux notamment) de suivi de la science ouverte préexistaient au BSO, alors pourquoi en créer un nouveau ? D’abord, parce que les outils existants utilisent des données issues de bases propriétaires, ni partageables, ni réutilisables et introduisent des biais de couverture. De plus, le Ministère voulait disposer d’un outil souverain, adapté à ses propres besoins de suivi. Néanmoins, le pragmatisme conduit la plupart des institutions à se tourner vers les bases de données propriétaires. Notamment, les champs disciplinaires et les affiliations ne sont pas ouvertes en général (les affiliations sont absentes de Crossref dans plus de 75 % des cas en 2021). Impossible de suivre l’ouverture des publications sans analyser les tendances d’une discipline à l’autre qui sont le reflet de pratiques différentes entre les communautés. De même, il est nécessaire de connaître les pays d’affiliation : seules les publications avec une affiliation française sont analysées dans le BSO, encore faut-il savoir si une publication a une affiliation française ! Le manque de métadonnées ouvertes est parfois vécu comme un obstacle infranchissable, plaçant certaines institutions dans la situation de devoir avoir recours à des données propriétaires, dans l’attente de la mise en place, sur un temps plus long et incertain, d’infrastructures ouvertes et centralisées de métadonnées riches. Une troisième voie mérite d’être pensée, et l’apprentissage automatique s’avère être un outil déterminant dans sa mise en œuvre. </div> <div type="section1"> <head style="T_1" subtype="level1">Transformer des bases existantes en données d’apprentissage</head> L’apprentissage automatique recouvre de nombreuses méthodes. Mais un invariant demeure : l’apprentissage automatique utilise des données d’apprentissage (d’entraînement) pour construire un modèle, permettant ensuite d’enrichir de nouvelles données non rencontrées dans les données d’apprentissage. Il faut donc d’une part des données d’apprentissage suffisamment riches pour construire un modèle pertinent et d’autre part des données à enrichir grâce au modèle. Ces données à traiter doivent porter un minimum d’informations, sans quoi le modèle sera incapable de calculer quoi que ce soit d’utile. Dans le cadre du BSO, la détection d’accès ouvert repose sur l’outil (ouvert) <hi rend="italic" style="typo_Italique">Unpaywall</hi><note n="1" place="foot" style="txt_Note" type="standard" xml:id="ftn1"> <ref target="https://unpaywall.org"><hi rend="underline" style="typo_souligne">https://unpaywall.org</hi></ref></note>. Les problématiques principales restantes portent sur l’inférence des champs disciplinaires et des pays d’affiliation. Nous faisons l’hypothèse qu’il est possible de déterminer une discipline à partir du titre du document et de la revue. Le module <hi rend="italic" style="typo_Italique">scientific tagger</hi><note n="2" place="foot" style="txt_Note" type="standard" xml:id="ftn2"> <ref target="https://github.com/dataesr/scientific_tagger"><hi rend="underline" style="typo_souligne">https://github.com/dataesr/scientific_tagger</hi></ref></note><hi rend="bold" style="typo_gras"> </hi>utilise les bases PASCAL et FRANCIS<note n="3" place="foot" style="txt_Note" type="standard" xml:id="ftn3"> <ref target="https://pascal-francis.inist.fr"><hi rend="underline" style="typo_souligne">https://pascal-francis.inist.fr</hi></ref></note><hi rend="bold" style="typo_gras"> </hi>comme bases d’apprentissage. Le modèle est construit avec l’algorithme <hi rend="italic" style="typo_Italique">fastText</hi><hi rend="bold" style="typo_gras"><note n="4" place="foot" style="txt_Note" type="standard" xml:id="ftn4"> <ref target="https://fasttext.cc"><hi rend="underline" style="typo_souligne">https://fasttext.cc</hi></ref></note></hi><hi rend="bold" style="typo_gras"> </hi>qui a le mérite d’être très léger et rapide. Une approche similaire est mise en place pour inférer la langue ainsi qu’une classification spécifique au domaine biomédical<note n="5" place="foot" style="txt_Note" type="standard" xml:id="ftn5"> E. Jeangirard ; Content-based subject classification at article level in biomedical context ; 2021 ; hal-03212544</note>. Pour les pays d’affiliation, l’obstacle à franchir est plus haut : les métadonnées ouvertes ne contiennent en général pas d’information sur les affiliations. Le problème ne porte pas sur les données d’entraînement mais bien sur les données à traiter. Sans données à traiter, l’algorithme se retrouve dans une impasse. Impasse qui semble pourtant paradoxale : les affiliations sont à la fois sous nos yeux à la première page des publications et invisibles dans les métadonnées ouvertes. Un outil de collecte et publications a été développé. Il en extrait les affiliations plein texte. Le module <hi rend="italic" style="typo_Italique">affiliation-matcher</hi><hi rend="italic" style="typo_Italique"><note n="6" place="foot" style="txt_Note" type="standard" xml:id="ftn6"> <ref target="https://github.com/dataesr/affiliation-matcher"><hi rend="underline" style="typo_souligne">https://github.com/dataesr/affiliation-matcher</hi></ref></note></hi><hi rend="bold" style="typo_gras"> </hi>permet à partir d’une affiliation plein texte (Université de Paris Dauphine, France) de deviner le pays associé (France). Cela peut être plus subtil qu’il n’y paraît dans cet exemple. Ainsi, la présence du mot « France » dans l’affiliation n’est ni nécessaire (CERMICS Université Paris Est), ni suffisante (Hôtel Dieu de France, Beirut, Lebanon). Le module <hi rend="italic" style="typo_Italique">affiliation-matcher </hi>s’appuie sur des données référentielles (notamment le RNSR et ROR<note n="7" place="foot" style="txt_Note" type="standard" xml:id="ftn7"> <ref target="https://ror.org"><hi rend="underline" style="typo_souligne">https://ror.org</hi></ref></note>) qui jouent le rôle de données d’apprentissage. L’algorithme en place ne relève néanmoins pas entièrement de l’apprentissage automatique car les règles d’appariement ne sont pas décidées par la machine, mais contrôlées par l’utilisateur du module. <figure> <graphic url="../icono/br/arabesques_107_page_11_dossier.jpg"/> <figDesc>Une image contenant flou Description générée automatiquement</figDesc> <head style="titre_figure"> </head> Crédit Adobe stock </figure> </div> <div type="section1"> <head style="T_1" subtype="level1">L’extension du BSO aux données de la recherche et codes logiciels amène à l’utilisation de nouveaux outils</head> Le deuxième Plan national pour la science ouverte (PNSO2)<note n="8" place="foot" style="txt_Note" type="standard" xml:id="ftn8"> <ref target="https://www.ouvrirlascience.fr/deuxieme-plan-national-pour-la-science-ouverte"><hi rend="underline" style="typo_souligne">https://www.ouvrirlascience.fr/deuxieme-plan-national-pour-la-science-ouverte</hi></ref></note><hi rend="bold" style="typo_gras"> </hi>fixe comme objectif au BSO de proposer de nouveaux indicateurs de suivi au-delà des publications. Dans sa déclinaison santé, le BSO analyse notamment les essais cliniques. À présent, nous travaillons à l’analyse des données de la recherche et des codes logiciels. Une piste suivie consiste à tenter de repérer dans le texte des publications, les références aux logiciels et aux données de la recherche. Il faut donc avoir accès au <hi rend="italic" style="typo_Italique">full-text </hi>des publications, et disposer d’un moyen pour y repérer une mention de logiciel ou de jeu de données. C’est un niveau supplémentaire de complexité. L’accès aux <hi rend="italic" style="typo_Italique">full-text </hi>est encore très difficile (hors accès ouvert) malgré l’existence d’accords TDM (<hi rend="italic" style="typo_Italique">Text and Data mining</hi>) dans les contrats avec certains éditeurs et les dispositions liées à la fouille de texte dans un décret<note n="9" place="foot" style="txt_Note" type="standard" xml:id="ftn9"> <ref target="https://www.legifrance.gouv.fr/jorf/id/JORFTEXT000045960058"><hi rend="underline" style="typo_souligne">https://www.legifrance.gouv.fr/jorf/id/JORFTEXT000045960058</hi></ref></note><hi rend="bold" style="typo_gras"> </hi>récent. De plus, ce type d’outil de détection fait appel à des techniques dites « d’apprentissage profond » (<hi rend="italic" style="typo_Italique">deep learning</hi>). Nous travaillons avec Patrice Lopez (<hi rend="italic" style="typo_Italique">science-miner</hi><note n="10" place="foot" style="txt_Note" type="standard" xml:id="ftn10"> <ref target="https://science-miner.com"><hi rend="underline" style="typo_souligne">https://science-miner.com</hi></ref></note>), un des experts internationaux de l’utilisation des techniques d’apprentissage profond sur les textes scientifiques. </div> <div type="section1"> <head style="T_1" subtype="level1">Ne pas lâcher la « proie » du réel pour « l’ombre des vérités algorithmiques »<hi rend="bold" style="typo_gras"><note n="11" place="foot" style="txt_Note" type="standard" xml:id="ftn11"> R. Gori, 2022, La Fabrique de nos servitudes.</note></hi></head> Quelles que soient les données et les techniques utilisées, les algorithmes d’apprentissage automatique produisent des erreurs, que nous tentons de contrôler et de mesurer. Une étude récente de Lauranne Chaignon et Daniel Egret<note n="12" place="foot" style="txt_Note" type="standard" xml:id="ftn12"> L. Chaignon, D. Egret ; Identifying scientific publications countrywide and measuring their open access: The case of the French Open Science Barometer (BSO). Quantitative Science Studies 2022; doi :10.1162/qss_a_00179.</note><hi rend="bold" style="typo_gras"> </hi>a validé l’efficacité de la méthode de détection des affiliations françaises du BSO en menant une comparaison avec les principales bases bibliométriques. L’utilisation de l’apprentissage automatique reste un moyen fiable de pallier le manque de métadonnées ouvertes et riches. Des réseaux d’échanges d’informations peuvent aussi se structurer, comme nous le proposons avec les déclinaisons locales du BSO<note n="13" place="foot" style="txt_Note" type="standard" xml:id="ftn13"> <ref target="https://barometredelascienceouverte.esr.gouv.fr/about/declinaisons"><hi rend="underline" style="typo_souligne">https://barometredelascienceouverte.esr.gouv.fr/about/declinaisons</hi></ref></note>. Le développement des outils avancés d’enrichissement automatique ne doit donc pas nous faire oublier un objectif essentiel, la poursuite de la mise en place d’un réseau d’infrastructures ouvertes, proposant des métadonnées riches pour rendre à la communauté scientifique le contrôle de l’information qu’elle produit elle-même. </div> </div> </body> </text> </TEI>