<?xml version="1.0" encoding="UTF-8"?>
<TEI
change="metopes_publication#openedition"
xmlns="http://www.tei-c.org/ns/1.0"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xmlns:xs="http://www.w3.org/2001/XMLSchema"
xmlns:xlink="http://www.w3.org/1999/xlink"
xmlns:xi="http://www.w3.org/2001/XInclude"
xmlns:ns="http://www.tei-c.org/ns/1.0"
xmlns:mathml="http://www.w3.org/1998/Math/MathML"
xmlns:loext="urn:org:documentfoundation:names:experimental:office:xmlns:loext:1.0"
xmlns:dcr="http://www.isocat.org/ns/dcr"
><teiHeader
><fileDesc
><titleStmt
><title
type="main"
>ISTEX : une nouvelle corde à son ARK</title
><author
role="aut"
><name
>Pascale Viot</name
><affiliation
>Équipe Plateforme ISTEX, Inist-CNRS</affiliation
><idno
type="IDREF"
>240229029</idno
></author
><author
role="aut"
><name
>Nicolas Thouvenin</name
><affiliation
>Responsable du service R&amp;D, Inist-CNRS</affiliation
><idno
type="IDREF"
>240228995</idno
></author
></titleStmt
><editionStmt
><edition
><date
>2019-09-02T16:11:00</date
></edition
></editionStmt
><publicationStmt
><ab
type="papier"
><dimensions
><dim
type="pagination"
>18-19</dim
></dimensions
><date
>01/01/2018</date
></ab
><idno
type="book"
></idno
><ab
type="lodel"
><date
>03/09/2019</date
></ab
></publicationStmt
><sourceDesc
><p
>Version Métopes : 2.1</p
><p
>Written by OpenOffice</p
><bibl
>Arabesques</bibl
></sourceDesc
></fileDesc
><encodingDesc
><tagsDecl
><rendition
scheme="css"
xml:id="Cell1.A1"
>border:0.5pt solid #00000a;</rendition
></tagsDecl
></encodingDesc
><profileDesc
><langUsage
><language
ident="fr-FR"
></language
></langUsage
><textClass
></textClass
></profileDesc
><revisionDesc
><change
when="2019-12-30T18:20:00"
who="jean luc de ochandiano"
>Révision</change
></revisionDesc
></teiHeader
><text
xml:id="text"
><front
><titlePage
><docTitle
><titlePart
style="T_Surtitre"
type="sup"
>Outils-Services</titlePart
><titlePart
style="T_3_Article"
type="main"
>ISTEX : une nouvelle corde à son ARK</titlePart
></docTitle
><byline
><docAuthor
style="txt_auteur"
>Pascale Viot</docAuthor
><affiliation
style="auteur_Institution"
>Équipe Plateforme ISTEX, Inist-CNRS</affiliation
><email
style="auteur_Courriel"
><ref
target="mailto:pascale.viot@inist.fr"
>pascale.viot@inist.fr</ref
></email
><docAuthor
style="txt_auteur"
>Nicolas Thouvenin</docAuthor
><affiliation
style="auteur_Institution"
>Responsable du service R&amp;D, Inist-CNRS</affiliation
><email
style="auteur_Courriel"
><ref
target="mailto:nicolas.thouvenin@inist.fr"
>nicolas.thouvenin@inist.fr</ref
></email
></byline
></titlePage
><argument
><p
style="txt_chapo"
>Les documents issus des bouquets acquis dans le cadre des négociations ISTEX et disponibles sur la plateforme possèdent un identifiant technique interne de 40 caractères, l’ID ISTEX. Ils ont été enrichis depuis peu par un nouvel identifiant normé, pérenne, gratuit et distribué : l’ARK.</p
></argument
></front
><body
><div
type="chapitre"
xml:id="mainDiv"
><figure
><graphic
url="../icono/br/IMP_Arabesque88_Page_18_Image_0001.jpg"
></graphic
><head
style="titre_figure"
></head
></figure
><p
style="txt_Normal"
>La réflexion autour de la normalisation des identifiants ISTEX a démarré fin 2015 lors d’une immersion au sein de la BnF. L’objectif était de mieux appréhender la démarche d’attribution et de pérennisation des identifiants des ressources numériques de la BnF. En 2016, la norme ARK (Archival Research Key) était présentée à l’Institut de l’information scientifique et technique (Inist) par Sebastien Peyrard en vue de son implémentation dans les données ISTEX. En effet, bien que le fonds documentaire ISTEX soit composé d’objets possédant majoritairement un DOI pointant vers le document éditeur, l’usage des ARK offre la possibilité d’identifier les documents du fonds, ce qui évite la confusion entre l’identifiant de l’objet d’archive et celui du document original. En outre, par rapport au système <hi
rend="italic"
style="typo_Italique"
>Handle, </hi
>l’approche décentralisée, gratuite et sans contrainte technique proposée par le système ARK constitue un avantage déterminant pour s’intégrer au mieux dans une plateforme technique préexistante.</p
><div
type="section1"
><head
style="T_1"
subtype="level1"
>Qu’est-ce qu’un ARK ?</head
><p
style="txt_Normal"
>Il s’agit d’un système d’identifiants basé sur la norme URI, initié, mis en place et maintenu par la CDL<note
n="1"
place="foot"
style="txt_Note"
type="standard"
xml:id="ftn1"
><p
> California Digital Library.</p
></note
> et intensivement utilisé par la BnF. On accède au document grâce à une URL ARK composée de deux parties : une première, constituée du protocole d’accès associé à l’adresse du site, qui peut donc être amenée à changer au cours du temps ; une seconde, constituée de l’ARK proprement dit, partie fixe et pérenne composée d’un numéro d’autorité attribué par la CDL, d’un nom ARK et d’un qualificatif de service facultatif.</p
></div
><div
type="section1"
><head
style="T_1"
subtype="level1"
>Organisation des ARK dans un établissement</head
><p
style="txt_Normal"
>Un ARK est constitué d’un numéro, le NAAN (Name Assigning Authority Number), attribué par la CDL permettant d’identifier l’institution habilitée (67 375 pour Inist-CNRS). Celle-ci s’engage à garantir l’unicité et la pérennité des identifiants qu’elle produit. Pour y parvenir, la CDL conseille d’introduire la notion de préfixe – ou <hi
rend="italic"
style="typo_Italique"
>subpublisher, </hi
>constitué d’une suite de 3 caractères alphanumériques, incrémenté automatiquement sur la base d’un algorithme.</p
><p
style="txt_Normal"
>Le <hi
rend="italic"
style="typo_Italique"
>subpublisher </hi
>caractérise toutes les ressources d’un même jeu de données, d’un même projet, d’un même service. Il permet de définir un périmètre fonctionnel, dans lequel il est possible de créer et d’assurer une unicité des identifiants produits. L’Inist-CNRS a donc développé un registre central<note
n="2"
place="foot"
style="txt_Note"
type="standard"
xml:id="ftn2"
><p
> <ref
target="https://github.com/Inist-CNRS/ezark"
>https://github.com/Inist-CNRS/ezark</ref
></p
></note
> pour mémoriser les <hi
rend="italic"
style="typo_Italique"
>subpublishers </hi
>et garantir leur unicité et la cohérence du système d’identification. Chaque <hi
rend="italic"
style="typo_Italique"
>subpublisher </hi
>est caractérisé par quatre éléments :</p
><list
type="unordered"
><item
style="txt_Liste_1"
>un nom (de projet, d’application, de service…),</item
><item
style="txt_Liste_1"
>un sujet (le nom d’un dépôt, d’une étude, d’un jeu de données),</item
><item
style="txt_Liste_1"
>une description libre,</item
><item
style="txt_Liste_1"
>l’URL du service proposant l’accès aux ressources.</item
></list
><figure
><graphic
url="../icono/br/ARK.PNG"
></graphic
><head
style="titre_figure"
></head
></figure
><p
style="txt_Normal"
>Outre le <hi
rend="italic"
style="typo_Italique"
>subpublisher, </hi
>le nom ARK est suivi d’un identifiant opaque non séquentiel de 8 caractères alphanumériques et d’un caractère de contrôle permettant d’assurer la validité de l’ARK. L’Inist-CNRS a repris le même algorithme que celui proposé par la CDL, le NCDA <hi
rend="italic"
style="typo_Italique"
>checksum algorithm</hi
><hi
rend="italic"
style="typo_Italique"
><note
n="3"
place="foot"
style="txt_Note"
type="standard"
xml:id="ftn3"
><p
> <ref
target="#NOID-CHECK-DIGIT-ALGORITHM"
>https://metacpan.org/pod/distribution/Noid/noid#NOID-CHECK-DIGIT-ALGORITHM</ref
></p
></note
></hi
><hi
rend="italic"
style="typo_Italique"
>. </hi
>Chaque élément (<hi
rend="italic"
style="typo_Italique"
>subpublisher, </hi
>identifiant, caractère contrôle) est séparé par un tiret.</p
></div
><div
type="section1"
><head
style="T_1"
subtype="level1"
>Attribution automatique</head
><p
style="txt_Normal"
>Bien qu’il existe un logiciel <hi
rend="italic"
style="typo_Italique"
>open source </hi
>(NOID, Nice Opaque Identifiers) qui génère des identifiants et donc potentiellement des ARK en utilisant un paramétrage spécifique, un outil a été développé en interne. Ce développement <hi
rend="italic"
style="typo_Italique"
>ad hoc</hi
><hi
rend="italic"
style="typo_Italique"
><note
n="4"
place="foot"
style="txt_Note"
type="standard"
xml:id="ftn4"
><p
> <ref
target="https://github.com/Inist-CNRS/node-inist-ark"
>https://github.com/Inist-CNRS/node-inist-ark</ref
></p
></note
></hi
> se justifie pour les raisons suivantes : le choix d’un nom ARK en trois parties, l’existence d’une plateforme technique d’injection, les besoins de stockage et de sauvegarde de tous les ARK générés, soit plusieurs millions.</p
><p
style="txt_Normal"
>À partir du registre central, l’attribution des ARK est réalisée automatiquement : pour les documents, au cœur même de la plateforme ISTEX ; pour les référentiels documentaires, dans l’application Lodex<note
n="5"
place="foot"
style="txt_Note"
type="standard"
xml:id="ftn5"
><p
> <ref
target="https://github.com/Inist-CNRS/lodex/"
>https://github.com/Inist-CNRS/lodex/</ref
></p
></note
>. Avant d’attribuer des ARK aux 19 millions de documents, une première phase a consisté à travailler sur les référentiels documentaires liés aux documents ISTEX. À partir d’une méthode de publication des référentiels, l’attribution des ARK a été expérimentée sur les différentes catégories de classification des documents ISTEX. La méthode a ensuite été validée et généralisée sur plusieurs référentiels consultables et citables au travers du site https://data.istex.fr via leur ARK, comme, par exemple :</p
><p
style="txt_Normal_suite"
><hi
rend="bold"
style="typo_gras"
>Extrait du référentiel des types de documents :<lb
></lb
></hi
><ref
target="https://content-type.data.istex.fr/ark:/67375/XTP-94FB0L8V-T"
>https://content-type.data.istex.fr/ark :/67375/XTP-94FB0L8V-T</ref
></p
><p
style="txt_Normal_suite"
><hi
rend="bold"
style="typo_gras"
>Extrait du référentiel des catégories Inist-CNRS de documents :<lb
></lb
></hi
><ref
target="https://inist-category.data.istex.fr/ark:/67375/RZL-8WV8N6BQ-7"
>https://inist-category.data.istex.fr/ark :/67375/RZL-8WV8N6BQ-7</ref
></p
></div
><div
type="section1"
><head
style="T_1"
subtype="level1"
>Prototype et mise en production</head
><p
style="txt_Normal"
>Une fois la méthode éprouvée sur les référentiels, au printemps 2017, une équipe composée de documentalistes et d’informaticiens a développé un prototype d’attribution et d’accès aux documents ISTEX via le protocole HTTPS, associé à l’adresse de la plateforme ISTEX, suivi de la partie pérenne de l’ARK. Il a été décidé d’utiliser plusieurs <hi
rend="italic"
style="typo_Italique"
>subpublishers </hi
>: chaque bouquet éditeur ayant été enregistré dans le registre central, les documents ISTEX ne possèdent donc pas tous le même préfixe. Quant au qualificatif, il identifie le document selon sa typologie (fulltext.pdf, fulltext.tei…). Compte tenu de la masse de documents, la mise en production des ARK est réalisée progressivement au fur et à mesure des mises à jour de la plateforme.</p
></div
><div
type="section1"
><head
style="T_1"
subtype="level1"
>Citabilité facilitée, lisibilité améliorée</head
><p
style="txt_Normal"
>L’attribution d’ARK aux objets documentaires offre de nombreux avantages. C’est tout d’abord une norme, utilisée par de nombreuses institutions publiques, qui assigne des identifiants pérennes de façon gratuite et avec une liberté de pratique pour l’autorité nommante. La citabilité est facilitée par une chaîne de caractères plus courte que l’ID ISTEX actuelle. La lisibilité est améliorée par une hiérarchisation bien identifiée dans le Nom ARK. La pérennité, quant à elle, est assurée en interne, contrairement à certains identifiants tel le DOI.</p
><p
style="txt_Normal"
>Ce nouveau type d’accès vient en complément de l’accès par ID ISTEX, mais ne le remplacera pas. Ainsi, pour l’utilisateur ayant déjà cité un document ISTEX, l’accès peut se faire sous les deux formes, comme, par exemple :</p
><p
style="txt_Normal_suite"
><ref
target="https://api.istex.fr/document/087661D669BF44CA05AA6CE08ADD6399F6A439C4/fulltext/pdf"
>https://api.istex.fr/document/087661D669BF44CA05AA6CE08ADD6399F6A439C4/fulltext/pdf</ref
> et :<lb
></lb
><ref
target="https://api.istex.fr/ark:/67375/GT4-FJLCPBW9-Q/fulltext.pdf"
>https://api.istex.fr/ark :/67375/GT4-FJLCPBW9-Q/fulltext.pdf</ref
></p
><p
style="txt_Normal"
>Actuellement, tous les corpus ISTEX sont enregistrés dans le registre de <hi
rend="italic"
style="typo_Italique"
>subpublisher</hi
> (code de 3 caractères), un code de 8 caractères étant en cours d’attribution pour les documents issus de chacun des corpus. Il est donc possible de citer un document avec cette nouvelle URL sachant que la partie la plus courte de l’URL, sans les qualificatifs, permet de connaître l’ensemble des typologies et formats possibles pour un même document :</p
><p
style="txt_Normal_suite"
><ref
target="https://api.istex.fr/ark:/67375/GT4-FJLCPBW9-Q"
>https://api.istex.fr/ark :/67375/GT4-FJLCPBW9-Q</ref
></p
><p
style="txt_Normal"
>Demain, grâce à la structure hiérarchisée et l’utilisation des qualificatifs, il sera possible non seulement de citer une notice en mods ou en xml, un fulltext en txt ou en pdf, mais également une page, voire une illustration du document.</p
><floatingText
n="1"
subtype="Focus"
type="encadre"
><body
><div
type="encadre"
><head
style="titreEncFocus"
>Pour en savoir plus</head
><p
style="txt_Normal"
>Sur la norme ARK, on peut consulter les présentations d’Emmanuelle Bermès,<lb
></lb
>« Des identifiants pérennes pour les ressources numériques : l’expérience de la BnF », International Preservation News, IFLA‑PAC, 2006 ; (40) : 16‑26,<lb
></lb
>et celle de Sébastien Peyrard,<lb
></lb
>« The ARK Identifier Scheme : General Characteristics and Implementation at the National Library of France », Workshop on Persistent Identifiers, Köln Universität, : Projet DASISH ; 2014.</p
><p
style="txt_Normal"
>Sur la méthode de publication des référentiels, on peut lire, de Cécilia Fabry <hi
rend="italic"
style="typo_Italique"
>et al</hi
>.,<lb
></lb
>Sept étapes pour publier des données ouvertes et liées, I2D : information, données et documents : pratiques &amp; recherche, 2017, pp. 12‑14.</p
><p
style="txt_Normal"
>Et aussi :<lb
></lb
><ref
target="https://api.istex.fr/documentation/ark"
>https://api.istex.fr/documentation/ark</ref
>,<lb
></lb
><ref
target="http://blog.istex.fr/des-ark-dans-istex"
>http://blog.istex.fr/des-ark-dans-istex</ref
>,<lb
></lb
><ref
target="http://lodex.inist.fr/tag/ark"
>http://lodex.inist.fr/tag/ark</ref
>,<lb
></lb
>et :<lb
></lb
><ref
target="http://www.bnf.fr/fr/professionnels/issn_isbn_autres_numeros/a.ark.html"
>http://www.bnf.fr/fr/professionnels/issn_isbn_autres_numeros/a.ark.html</ref
></p
></div
></body
></floatingText
></div
></div
></body
></text
></TEI
>
