<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0">
  <channel>
    <title>Auteurs : Angela Göbel</title>
    <link>http://publications-prairial.fr/theia/index.php?id=99</link>
    <description>Publications de Auteurs Angela Göbel</description>
    <language>fr</language>
    <ttl>0</ttl>
    <item>
      <title>Faciliter l’édition numérique avec les méthodes de reconnaissance automatique de texte</title>
      <link>http://publications-prairial.fr/theia/index.php?id=129</link>
      <description>Le projet « Grand Tour digital » vise à numériser, explorer et visualiser des témoignages personnels de voyages éducatifs de l’époque moderne, mettant l’accent sur cinq textes principaux. Le projet vise à développer expérimentalement un processus éditorial novateur en utilisant Transkribus. Financé par la Deutsche Forschungsgemeinschaft (DFG) de 2022 à 2025, le projet utilise la plateforme Transkribus pour la transcription automatique de manuscrits, combinée à la reconnaissance d’entités nommées (REN) pour l’exploration et la visualisation des témoignages. Le corpus comprend 21 journaux de voyage, rédigés entre 1550 et 1770, conservés à la Bibliothèque Herzog August à Wolfenbüttel (HAB), avec une variété de voyages couvrant l’Europe, l’Empire ottoman et le Proche-Orient. La reconnaissance automatique des récits de voyage réalisée avec Transkribus fait face à des défis tels que la variété de l’écriture, l’individualité de chaque écriture, la mise en page complexe, les polices variées, l’utilisation de différentes langues et les exigences de contenu. Au cours du projet sera développé un modèle adapté à ces exigences. Le logiciel fournit des instructions utiles pour l’édition de texte, et la recherche génère des rapports d’expérience, des discussions scientifiques et des conseils pratiques sur l’outil. La transcription manuelle des pages du journal de voyage de Wagener dans Transkribus a permis d’entraîner un nouveau modèle basé sur le modèle existant « Transkribus German handwriting M1 » de l’Université de Greifswald. Ce modèle a été ajusté progressivement en transcrivant partiellement automatiquement, en corrigeant, et en réentraînant. L’objectif était d’adapter le programme aux particularités de l’écriture de Wagener, réduisant ainsi le taux d’erreur dans la reconnaissance manuscrite. Des ajustements manuels ont été apportés au marquage des champs de texte pour minimiser les erreurs de détection. L’évaluation du modèle a montré des taux d’erreur fluctuants, atteignant 2,41 % dans l’ensemble d’entraînement et 11 % dans l’ensemble de validation lors de la première itération. L’optimisation du modèle a continué avec des ajustements itératifs, élargissant le jeu de caractères entraîné. Les résultats montrent des améliorations, bien que des questions subsistent sur la meilleure façon de traiter les pages « non utilisables ». L’évaluation automatique dans Transkribus s’est concentrée sur le taux d’erreur (CER) et la précision des mots et des caractères, révélant des écarts significatifs entre les évaluations automatiques et manuelles. Malgré des améliorations dans le modèle, Transkribus atteint ses limites, avec des échecs d’ajustement conduisant à des taux d’erreur élevés. L’étude soulève des questions sur la spécificité de ces limites à Transkribus par rapport à d’autres systèmes de transcription automatisée. L’auteure suggère également d’explorer d’autres outils d’HTR tels que Kraken et Tesseract pour une comparaison approfondie. En conclusion, le succès de la reconnaissance automatisée dépend fortement de la qualité des pages, de la lisibilité du manuscrit, et de la présence de ratures. Bien que Transkribus ait joué un rôle pionnier, d’autres alternatives méritent une étude comparative pour évaluer les performances des différents outils d’HTR. The “Grand Tour digital” project aims to digitize, explore, and visualize personal accounts of educational journeys from the modern era, focusing on five main texts. The project aims to experimentally develop an innovative editorial process using Transkribus. Funded by the Deutsche Forschungsgemeinschaft (DFG) from 2022 to 2025, the project utilizes the Transkribus platform for the automatic transcription of manuscripts, combined with Named Entity Recognition (NER) for the exploration and visualization of testimonies. The corpus consists of 21 travel journals written between 1550 and 1770, held at the Herzog August Library in Wolfenbüttel (HAB), covering various journeys across Europe, the Ottoman Empire, and the Middle East. Automatic recognition of travel narratives, especially with Transkribus, faces challenges such as writing variety, individuality of each script, complex layout, diverse fonts, use of different languages, and content requirements. A model adapted to these requirements will be developed during the project. The software provides useful instructions for text editing, and research generates experience reports, scholarly discussions, and practical advice on the tool. Manual transcription of Wagener’s travel journal pages in Transkribus was used to train a new model based on the existing “Transkribus German handwriting M1” model from the University of Greifswald. This model was gradually adjusted by partially automatic transcription, correction, and retraining. The goal was to adapt the program to Wagener’s writing characteristics, thus reducing the error rate in handwriting recognition. Manual adjustments were made to text field labeling to minimize detection errors. Model evaluation showed fluctuating error rates, reaching 2.41% in the training set and 11% in the validation set during the first iteration. Model optimization continued with iterative adjustments, expanding the trained character set. Results show improvements, although questions remain about the best way to handle “unusable” pages. Automatic evaluation in Transkribus focused on Character Error Rate (CER) and word and character accuracy, revealing significant discrepancies between automatic and manual evaluations. Despite improvements in the model, Transkribus reaches its limits, with adjustment failures leading to high error rates. The study raises questions about the specificity of these limits in Transkribus compared to other automated transcription systems. The author also suggests exploring other HTR tools such as Kraken and Tesseract for a comprehensive comparison. In conclusion, the success of automated recognition heavily depends on page quality, manuscript readability, and the presence of erasures. Although Transkribus has played a pioneering role, other alternatives deserve a comparative study to assess the performance of different HTR tools. </description>
      <pubDate>lun., 14 avril 2025 16:33:08 +0200</pubDate>
      <lastBuildDate>jeu., 17 avril 2025 13:37:08 +0200</lastBuildDate>
      <guid isPermaLink="true">http://publications-prairial.fr/theia/index.php?id=129</guid>
    </item>
    <item>
      <title>Introduction</title>
      <link>http://publications-prairial.fr/theia/index.php?id=83</link>
      <description>La revue Théia, dans son premier numéro, explore la pratique de l’édition numérique. Elle interroge l’utilisation des outils de la Science Ouverte pour publier des livres en ligne et valoriser les sources historiques. Une Journée d’Études a eu lieu le 22 juin 2023, et les articles qui suivent sont le résultat de discussions entre historiens et historiens de l’art sur leurs projets d’édition numérique. Ces textes visent à comparer différentes approches et à réfléchir sur des questions clés : le choix des sources, les solutions techniques, le rendu final des documents et la diffusion des résultats. L’objectif est de favoriser un dialogue autour des humanités numériques et de leur impact sur la recherche en Histoire et en Histoire de l’Art. In its first issue, the journal Théia explores the practice of digital publishing. It examines the use of Open Science tools to publish books online and enhance historical sources. A Study Day was held on 22 June 2023, and the articles that follow are the result of discussions between historians and art historians on their digital publishing projects. The aim of these texts is to compare different approaches and to reflect on key issues: the choice of sources, technical solutions, the final rendering of documents and the dissemination of results. The aim is to encourage a dialogue on digital humanities and their impact on research in History and Art History. </description>
      <pubDate>lun., 14 avril 2025 16:29:01 +0200</pubDate>
      <lastBuildDate>jeu., 17 avril 2025 13:33:23 +0200</lastBuildDate>
      <guid isPermaLink="true">http://publications-prairial.fr/theia/index.php?id=83</guid>
    </item>
  </channel>
</rss>