Séminaire GEODE «Extraction, traitement et visualisation de données complexes en géographie (XVIIIe s. – XIXe s.)». Cycle de conférences organisées à l’École Normale Supérieure de Lyon par Denis Vigier et Ludovic Moncla et financées par l’Institut Rhônalpin des systèmes Complexes (IXXI).
Session 18 – Linguistique des discours, traitement automatique des langues.
Séance du 18 janvier 2024, 14h – 15h30.
École Normale Supérieure de Lyon, bâtiment Recherche (D4), salle D4 179 et en ligne.
Baliser des dictionnaires anciens en XML-TEI pour en extraire des données lexicales: l’expérience du projet CollEx-Persée de «Métadictionnaire médical multilingue de la bibliothèque numérique Medica»
Le «Métadictionnaire médical multilingue de la bibliothèque numérique Medica» permet d’enrichir les résultats de recherche au sein d’un corpus de 56 dictionnaires et encyclopédies des sciences médicales du XVIIe au XXe siècle (459 volumes, plus de 450 000 entrées sur plus de 330 000 pages) en donnant accès au savoir lexical et étymologique de sept dictionnaires représentatifs et de leurs lexiques et glossaires multilingues. Nous exposerons tout d’abord les principes et les méthodes de balisage XML-TEI qui ont été définis pour extraire des données lexicales de ces ouvrages, après océrisation, en fonction des objectifs du projet et des contraintes de temps et de moyens à disposition. Des exemples concrets permettront d’illustrer les défis auxquels fait face le travail encore en cours de vérification du texte et de la structuration des fichiers XML-TEI, qui résultent de la diversité et de la complexité des ouvrages traités, mais aussi de la richesse et de la singularité du vocabulaire médical multilingue qui y est relevé. Nous évoquerons également le travail nécessaire pour mettre à disposition en accès libre, comme le projet s’y était engagé, des données qui soient les plus interopérables et les plus réutilisables possibles.
Anaïs Chambat, doctorante contractuelle en sciences du langage depuis octobre 2022 (CY Cergy Paris Université, EA 7518 «Lexiques, Textes, Discours et Dictionnaires – Centre Jean Pruvost»), cheffe de projet au sein de l’équipe du Métadictionnaire de 2021 à 2022.
Nathalie Rousseau, maître de conférences en linguistique grecque (Sorbonne Université, UMR 8167 «Orient et Méditerranée» – équipe «Médecine grecque et littérature technique», Institut universitaire de France), coordinatrice scientifique, avec Jean-François Vincent, conservateur en chef des bibliothèques (responsable du département d’histoire de la santé à la BIU Santé médecine jusqu’à la fin de 2023), du projet «Métadictionnaire médical multilingue».