<?xml version="1.0" encoding="UTF-8"?>
<TEI change="metopes_publication#openedition"
     xmlns="http://www.tei-c.org/ns/1.0"
     xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
     xmlns:xs="http://www.w3.org/2001/XMLSchema"
     xmlns:xlink="http://www.w3.org/1999/xlink"
     xmlns:xi="http://www.w3.org/2001/XInclude"
     xmlns:ns="http://www.tei-c.org/ns/1.0"
     xmlns:mathml="http://www.w3.org/1998/Math/MathML"
     xmlns:loext="urn:org:documentfoundation:names:experimental:office:xmlns:loext:1.0"
     xmlns:dcr="http://www.isocat.org/ns/dcr">
  <teiHeader>
    <fileDesc>
      <titleStmt>
        <title type="main">ISTEX : de la plateforme de référence à
        l’infrastructure de recherche</title>

        <author role="aut"><name>Alexandra
        Petitjean-Monnin</name><affiliation><ref target="#aff01"
        type="affiliation"/></affiliation><idno
        type="IDREF">264802470</idno></author>

        <author role="aut"><name>Raluca Pierrot</name><affiliation><ref
        target="#aff02" type="affiliation"/></affiliation><idno
        type="IDREF">087096242</idno><idno
        type="VIAF">http://viaf.org/viaf/203201081</idno></author>

        <author role="aut"><name>Cécilia Fabry</name><affiliation><ref
        target="#aff03" type="affiliation"/></affiliation><idno
        type="IDREF">264802462</idno></author>
      </titleStmt>

      <editionStmt>
        <edition><date>2022-10-05T20:50:00</date></edition>
      </editionStmt>

      <publicationStmt>
        <publisher/>

        <ab type="papier"><dimensions>
            <dim type="pagination">20</dim>
          </dimensions><date>01/10/2022</date></ab>

        <idno type="book"/>

        <ab type="lodel"><date/></ab>
      </publicationStmt>

      <sourceDesc>
        <p>Version Métopes : 3.0</p>

        <p>Written by OpenOffice</p>

        <bibl>Arabesques</bibl>
      </sourceDesc>
    </fileDesc>

    <encodingDesc>
      <tagsDecl>
        <rendition scheme="css" xml:id="none">color:black;</rendition>
      </tagsDecl>
    </encodingDesc>

    <profileDesc>
      <langUsage>
        <language ident="fr-FR"/>
      </langUsage>

      <textClass/>
    </profileDesc>

    <revisionDesc>
      <change when="2022-10-11T14:03:00"
      who="Marie-Pierre Roux">Révision</change>
    </revisionDesc>
  </teiHeader>

  <text xml:id="text">
    <front>
      <titlePage>
        <docTitle>
          <titlePart style="T_3_Article" type="main">ISTEX : de la plateforme
          de référence à l’infrastructure de recherche</titlePart>
        </docTitle>

        <docAuthor style="txt_auteur">Alexandra Petitjean-Monnin</docAuthor>

        <byline style="auteur_Courriel"><email><ref
        target="mailto:alexandra.petitjean@inist.fr">alexandra.petitjean@inist.fr
        </ref></email></byline>

        <byline style="auteur_Institution"><affiliation xml:id="aff01">Chargée
        de communication, Inist-CNRS</affiliation></byline>

        <docAuthor style="txt_auteur">Raluca Pierrot</docAuthor>

        <byline style="auteur_Courriel"><email><ref
        target="mailto:pierrot@abes.fr">pierrot@abes.fr
        </ref></email></byline>

        <byline style="auteur_Institution"><affiliation
        xml:id="aff02">Responsable du service Documentation électronique,
        Abes</affiliation></byline>

        <docAuthor style="txt_auteur">Cécilia Fabry</docAuthor>

        <byline style="auteur_Courriel"><email><ref
        target="mailto:cecilia.fabry@inist.fr">cecilia.fabry@inist.fr</ref></email></byline>

        <byline style="auteur_Institution"><affiliation
        xml:id="aff03">Responsable communication,
        Inist-CNRS</affiliation></byline>
      </titlePage>
    </front>

    <body>
      <div type="chapitre" xml:id="mainDiv">
        <p style="txt_Normal">En mettant à disposition près de 26 millions de
        documents, Istex est aujourd’hui le plus vaste réservoir d’archives
        scientifiques au service de la recherche française,<hi rend="bold"
        style="typo_gras"> </hi>proposant un usage documentaire pour la
        consultation de documents, et un usage plus avancé de fouille de
        textes pour l’exploitation et le traitement de lots de documents.</p>

        <p style="txt_Normal">Né d’une volonté nationale, le projet Istex
        (Initiative d’excellence de l’information scientifique et technique)
        s’inscrivait dans le programme « Investissements d’avenir », initié
        alors par le ministère de l’Enseignement supérieur et de la Recherche.
        L’idée était d’acquérir massivement des collections rétrospectives de
        la littérature scientifique dans toutes les disciplines et de se doter
        d’un outil innovant d’exploitation des données. En s’inspirant du
        modèle de la Fondation allemande pour la recherche (DFG) qui avait
        amorcé une démarche d’indépendance envers les éditeurs, ce projet
        visait un accès pérenne aux publications via une plateforme hébergée
        sur le territoire national, afin de gagner une certaine autonomie
        vis-à-vis des éditeurs scientifiques, souverains jusque-là en matière
        d’accès aux publications.</p>

        <p style="txt_Normal">Quatre acteurs principaux, reliés par un accord
        de consortium, ont mis en œuvre, chacun avec un rôle spécifique, ce
        projet doté à sa création le 19 avril 2012 d’un budget de 60 millions
        d’euros. Le CNRS était porteur du projet, l’Inist avait pour mission
        de développer l’infrastructure matérielle et logicielle, le Consortium
        universitaire de publications numériques (Couperin) avait comme
        mission principale le recueil des besoins et les négociations avec les
        éditeurs, tandis que l’Agence bibliographique de l’enseignement
        supérieur (Abes) prenait en charge les acquisitions et le signalement
        des collections dans les outils documentaires nationaux. Quant à la
        Conférence des présidents d’université (aujourd’hui France
        Universités), représentée par l’université de Lorraine, elle avait
        pour rôle de faire le lien avec les communautés de recherche, en
        pilotant notamment les projets de services à valeur ajoutée et les
        chantiers d’usage.</p>

        <div type="section1">
          <head style="T_1" subtype="level1">Un projet en deux étapes</head>

          <p style="txt_Normal">La première étape a consisté en une politique
          volontariste et massive d’achats centralisés d’archives
          scientifiques sous forme de licences nationales. Celles-ci ont été
          déterminées en fonction des besoins recensés dans les différentes
          communautés notamment <hi rend="italic" style="typo_Italique">via
          </hi>une enquête de grande ampleur à laquelle quelque 7 000
          professionnels de la recherche ont répondu. Un comité de pilotage
          représentatif de l’ensemble des communautés a ensuite validé les
          choix et hiérarchisé les priorités d’acquisitions en veil­lant aux
          équilibres disciplinaires. S’appuyant sur l’expérience de consortia
          étrangers, l’Abes et le consortium Couperin ont mené les
          négociations avec les éditeurs, dans le cadre de contrats
          d’acquisition innovants. Portée par l’Inist, la seconde étape du
          projet était la création de la plateforme destinée à héberger
          l’ensemble des données, construite en méthode Agile en lien avec les
          partenaires et utilisateurs.</p>

          <p style="txt_Normal">Un autre choix a été fait, et pas des
          moindres : celui de ne pas créer d’interface mais plutôt de
          s’intégrer dans les systèmes existants. Cela a commencé par des
          widgets, intégrés dans les portails documentaires des
          établissements, avant de devenir un bouton Istex visible sur les
          plateformes utilisées par les chercheurs. Depuis mars 2021, les
          ressources Istex sont accessibles via l’exten­sion unifiée <hi
          rend="italic" style="typo_Italique">Click &amp; Read
          </hi>installable sur les principaux navigateurs Internet.</p>
        </div>

        <div type="section1">
          <head style="T_1" subtype="level1">Bonifier les données pour la
          fouille de données</head>

          <p style="txt_Normal">Les données reçues n’étant pas toujours de
          qualité optimale pour l’exploitation par les utilisateurs finaux, un
          des plus gros défis a été de les nettoyer pour les homogénéiser et
          les rendre ainsi aptes à être « ingérées ». Pour cela, des feuilles
          de style ont été créées afin de structurer les données.</p>

          <p style="txt_Normal">Un <hi rend="italic"
          style="typo_Italique">workflow </hi>a été mis en place en étroite
          collaboration avec l’Abes pour les échanges avec les éditeurs et la
          restructuration des métadonnées mises à disposition par ceux-ci.</p>

          <p style="txt_Normal">Le premier chargement de données s’est déroulé
          en 2014 avec 6 millions de documents. Le processus s’est ensuite
          généralisé : enquête, négociation, livraison et chargement pour
          proposer aujourd’hui plus de 25,5 mil­lions de documents provenant
          de 32 sources différentes.</p>

          <p style="txt_Normal">En parallèle, des étapes d’enrichissement des
          données se sont mises en place pour ajouter de nouvelles métadonnées
          telles que des entités nommées, des références bibliographiques
          structurées, une indexation ou encore une catégorisation par domaine
          scientifique.</p>

          <p style="txt_Normal">Grâce aux services Istex qui ont été
          développés, il est possible d’explorer, d’analyser des données et de
          faire de la fouille de textes. L’API Istex permet de faire de la
          recherche documentaire (facilitée grâce à la revue de sommaires :
          <ref target="https://revue-sommaire.istex.fr"><hi rend="underline"
          style="typo_souligne">https://revue-sommaire.istex.fr</hi></ref>),
          les résultats étant téléchargeables de façon massive avec Istex-DL.
          Lodex intervient ensuite pour l’exploration et la visualisation des
          corpus. Sans oublier Data.Istex qui regroupe des exemples de corpus
          prêts à l’emploi.</p>

          <p style="txt_Normal">Récemment, Istex s’est affiché parmi les 108
          infrastructures retenues dans la feuille de route nationale des
          Infrastructures de recherche 2021, dans la catégorie projet, éditée
          par le ministère de l’Enseignement supérieur, de la Recherche et de
          l’Innovation.</p>

          <p style="txt_Normal">Les principaux objectifs stratégiques exposés
          pour ce projet d’infrastructure sont :</p>

          <list type="unordered">
            <item style="txt_Liste_1">Ouvrir la collection aux ressources
            nativement publiées en accès ouvert et poursuivre son alimentation
            grâce à une politique d’acquisition ambitieuse</item>

            <item style="txt_Liste_1">Faciliter la constitution de corpus
            cohérents et enrichis, directement exploitables pour du TDM</item>

            <item style="txt_Liste_1">Promouvoir le développement de services
            avancés avec la communauté des chercheurs en TAL</item>

            <item style="txt_Liste_1">Offrir des services d’exploration et
            d’exploitation de corpus accessibles à tous.</item>
          </list>

          <p style="txt_Normal">Outre le caractère novateur de la réalisation
          technique, Istex a ouvert la voie à de nouvelles collaborations
          entre des acteurs de l’IST mutualisant leurs efforts et compétences
          au service de la communauté ESR. Il est aussi une ressource pour de
          la fouille de données grâce à la mise à disposition de textes
          intégraux documentés par des métadonnées riches et téléchargeables
          massivement.</p>
        </div>
      </div>
    </body>
  </text>
</TEI>
