scholarly digital editions

scholarly digital editions http://publications-prairial.fr/theia/index.php?id=152 Entrées d’index fr 0 La reconnaissance d’entités nommées dans les éditions numériques à l’exemple du récit de voyage du pharmacien Wagener http://publications-prairial.fr/theia/index.php?id=144 Dans le domaine des éditions numériques savantes, les applications de l’intelligence artificielle (IA) et de l’apprentissage automatique gagnent de plus en plus d’influence. De nos jours, la transcription ainsi que l’annotation de textes peuvent être facilitées par des outils puissants tels que Transkribus, avec lesquels des modèles d’IA peuvent être entraînés pour effectuer une reconnaissance de texte manuscrit (HTR). Dans une deuxième étape, les données textuelles peuvent être traitées par des logiciels conçus pour le Traitement du langage naturel (NLP) afin d’extraire et d’annoter des caractéristiques syntaxiques, morphologiques ainsi que des informations sémantiques. Par exemple, il est possible de baliser des personnes, des lieux et des organisations via la Reconnaissance d’entités nommées (NER), ce qui est particulièrement pertinent pour les éditions numériques de sources historiques.Ces considérations sont l’une des principales préoccupations du projet de recherche et d’édition « Grand Tour digital » à la Bibliothèque Herzog August de Wolfenbüttel. Il vise à établir la faisabilité des méthodes d’IA pour l’édition savante de sources historiques et à adapter de telles méthodes dans un flux de travail complet et durable qui pourrait être applicable à d’autres projets également. Ce faisant, nous devons identifier les possibilités et, plus important encore, les défis potentiels de la technologie en ce qui concerne son adaptabilité aux sources historiques. Cet article présente un travail réalisable grâce à la NER en utilisant l’exemple d’un récit de voyage du milieu du xviie siècle écrit par un jeune apothicaire itinérant qui a voyagé dans la région baltique, à travers le nord de l’Allemagne, faisant fonction de laquais dans la suite du jeune duc Ferdinand Albrecht Ier de Brunswick-Wolfenbüttel-Bevern, en Suisse et en France.En observant ce processus, apparaîtront certains problèmes et difficultés liés aux particularités des textes de l’époque moderne par rapport aux textes contemporains pour lesquels pratiquement tous les outils de NLP et de NER ont été initialement conçus. Tout d’abord, les textes actuels sont orthographiquement et grammaticalement beaucoup plus normalisés que de nombreux textes anciens. À l’époque moderne, par exemple, le même scribe pouvait utiliser différentes orthographes du même mot sur la même page. De plus, de nombreux scribes et leurs textes étaient multilingues plutôt que monolingues, et même les noms de personnes ou de lieux pouvaient parfois être donnés dans différentes langues et versions, par exemple le prénom allemand Johannes ou Hans pouvait parfois apparaître dans sa forme française Jean même si la même personne était visée.Il existe plusieurs approches pour atténuer ces difficultés et celles qui y sont liées, dont certaines seront évaluées dans cet article. La première consiste à utiliser des techniques d’apprentissage automatique pour former des modèles NER spécifiquement sur des textes de la période et de la langue qui nous intéressent. Le problème est qu’il existe, en général, très peu de jeux de données d’entraînement disponibles à partir de textes historiques qui peuvent être utilisés pour former des modèles spécialisés. Une autre approche est l’utilisation de gazetiers ou de dictionnaires de noms avec lesquels le programme peut reconnaître certains tokens1 comme des noms. Encore une fois, il existe relativement peu de ressources pour les textes de l’époque moderne par rapport aux textes contemporains et surtout les noms de personnes montrent une grande variété et sont souvent très spécifiques à des textes individuels. Ainsi, l’approche basée sur le dictionnaire ou les règles ne peut être utilisée de manière significative que pour des entités qui existent sur une période relativement longue et peuvent apparaître, par conséquent, dans un plus grand nombre de textes, comme des lieux ou des organisations. Une troisième manière de faire face aux problèmes posés par les sources historiques pour la NER consiste en la combinaison des deux approches décrites ci-dessus. C’est possible avec certaines applications de NLP, par exemple spaCy, qui a été utilisé dans l’étude entre autre pour cette raison.Dans l’ensemble, cet article présente une étude de cas pour l’application de méthodes NER aux éditions numériques savantes de textes de l’époque moderne. Il analyse les possibilités et les défis de cette entreprise et propose des solutions en cas de difficultés. Si ces réflexions peuvent être utiles à d’autres projets, elles sont encore à un stade préliminaire et nécessitent des tests et des améliorations supplémentaires. In the field of scholarly digital editions applications of Artificial Intelligence (AI) and machine learning gain more and more influence. Nowadays, the transcription as well as the annotation of texts can be facilitated by powerful tools such as Transkribus with which AI-models can be trained to perform Handwritten Text Recognition (HTR). In a second step, the textual data can be processed by software designed for Natural Language Processing (NLP) to extract and annotate syntactical and morphological features as well as semantic information. For example, it is possible to markup persons, places and organisations via Named Entity Recognition (NER), which is especially relevant for digital editions of historical sources.These considerations are one main concern of the research and edition project “Grand Tour digital” at the Herzog August Library Wolfenbüttel. It aims to establish the feasibility of AI-methods for the scholarly editing of historical sources and to adapt such methods into a comprehensive and sustainable workflow which might be applicable for other projects as well. In doing so, we need to identify the possibilities and, more importantly, potential challenges for the technology regarding its adaptability to historical sources. The present article outlines a possible workflow for NER using the example of a mid-17th century travelogue written by a young apothecary journeyman who travelled to the Baltic region, through northern Germany and, as some sort of lackey in the party of the young Duke Ferdinand Albrecht I. of Brunswick-Wolfenbüttel-Bevern, to Switzerland and France. While discussing the workflow, some problems and difficulties will become apparent which are a result of the peculiarities of early modern in contrast to modern texts for which virtually all NLP and NER tools were originally designed. First and foremost, modern texts and languages are orthographically and grammatically far more normalized than many historical texts. In the early modern era, for example, the same scribe could employ different spellings of the same word on the same page. Additionally, many scribes and their texts were multilingual rather than monolingual, and even the names of persons or places could occasionally be given in different languages and different versions, e. g. the German given name Johannes or Hans would sometimes appear in its French form Jean even if the same person was meant by it.There are several approaches to mitigate these and related difficulties, some of which will be evaluated in the paper. The first one is to use machine learning techniques to train NER models specifically on texts of the time period and language one is interested in. One problem regarding this solution is that there are, generally speaking, very few and rather small available training sets of suitable data from historical texts which can be used to train specialised models. Another approach is the use of gazetteers or dictionaries of names with which the program can recognize certain tokens as names. Again, there are comparatively few resources for pre-modern than modern texts to build and especially person names show a great variety and are often very specific for single texts. Thus, the dictionary- or rule-based approach can only be used in a meaningful way for entities that are existent over a relatively long time period and may appear, therefore, in a greater number of texts, such as places or organisations. A third way of addressing the problems posed by historical source for NER consists of the combination of the two approaches outlined above. This is possible with some NLP-applications, e. g. spaCy which was used in the present study because of that reason among others.All in all, this article presents a case study for the application of NER methods to scholarly digital editions of early modern texts. It analyses the possibilities and challenges of this venture, and proposes some solutions for potential problems and difficulties. While these will be hopefully useful for other projects with similar concerns, they are still in a preliminary state and need further testing and improvement. lun., 14 avril 2025 16:37:08 +0200 jeu., 17 avril 2025 13:38:16 +0200 http://publications-prairial.fr/theia/index.php?id=144