Thèses         Masters
 
Thèses
 

Sergio TORRES AGUILAR, Un modèle de reconnaissance automatique des entités nommées et des structures textuelles pour les corpus diplomatiques médiolatins, thèse de doctorat, dir. Pierre Chastang et Xavier Tanniers, Université Paris-Saclay, soutenue le 5 décembre 2019.

Résumé

Nous présentons dans cette thèse deux modèles informatiques développés pour délivrer de l’information structurée et applicables à de grandes bases de données de textes médiévaux. Les deux modèles, l’un appliqué à la reconnaissance des entités nommées, l’autre à la détection des parties du discours diplomatique, ont suivi un apprentissage supervisé utilisant la méthode des Champs aléatoires conditionnelles (CRF) sur un corpus manuellement annoté de actes médiévaux (Corpus Burgundiae Medii Aevi ou CBMA).

Notre modèle principal de reconnaissance d’entités nommées a prouvé sa robustesse lorsqu’il a été appliqué sur des échantillons de corpus de taille, chronologie et origine très variés. Le modèle secondaire détectant les parties du discours diplomatique, bien que moins performant, s’est montré valide comme outil de structuration. Ils peuvent à présent être utilisés pour l’indexation et l’étude d’une grande variété de sources diplomatiques, économisant, ainsi des considérables efforts humains.

Nous avons développé différentes solutions destinées à trouver un juste équilibre entre la dépendance du modèle à son corpus d’origine et sa capacité à être appliqué à d’autres corpus. De même, différents ajouts et corrections ont été opérés sur le corpus de référence à partir de plusieurs observations de type historique et linguistique concernant les documents utilisés, ce qui a permis d’améliorer la performance initiale.

Nous avons ensuite appliqué les outils ainsi générés à la reconnaissance de noms de personnes, de lieux et de parties du discours diplomatique sur des milliers d’actes du CBMA afin d’étudier différentes questions intéressant la science historique et la diplomatique. Ces études concernent la datation semi-automatique d’un cartulaire qui en était dépourvu; l’évolution du vocabulaire spatial dans les actes du Moyen Âge Central; et l’indexation des documents à partir des modules les intégrant, notamment les formules du protocole des actes. Par ces études nous poursuivons un double objectif : illustrer différentes stratégies permettant d’abstraire et d’adapter au traitement automatique des données des méthodes de recherche classiques en Histoire; démontrer que nos outils de traitement massif permettent la génération de connaissances pertinentes pour la science historique.

Abstract

In this thesis, we present two computer models to structure textual information for large databases of medieval charters. The two models, one applied to the recognition of named entities, the other to the detection of parts of the diplomatics discourse, are supervised Conditional random fields (CRF) models trained on a hand-annotated corpus of medieval charters. (Corpus Burgundiae Medii Aevi or CBMA).

The main Named Entity Recognition model has proven to be robust in its application to widely varying corpora in size, chronology and origin. The secondary model detecting parts of the diplomatic discourse, although less efficient, remains valid as a structuring tool. At the moment both can be used for indexing and studying a wide variety of diplomatics sources, thus saving huge human efforts.

We have developed different solutions to overcome the gap between model’s dependence on its original training-set and its ability to be applied to other corpora. Similarly, various corrections and additions were made to the golden-corpus from several historical and linguistic analysis concerning writing phenomena in charters, which greatly helped to improve the initial performance.

In a later step we applied our automatic tools in the recognition of names of people, places and parts of the diplomatics discourse on thousands of charters from the CBMA corpus in order to study different questions concerning historical science and diplomatics. These studies concern the semi-automatic dating of a non-dated cartulary ; the evolution of the spatial vocabulary in the charters of the central Middle Ages and the indexing of charters from their scriptural modules, in particular formulae of the charter protocols. This studies has a twofold purpose : on the one hand have shown different strategies for abstracting and adapting to the automatic processing well-known methods of research in history ; on the other hand, seek to provide us tools with an applicative framework to obtain relevant knowledge to the historical science using massive processing.

 
 

Coraline REY, Archives et bibliothèque à Cîteaux : entreprises d'écritures au Moyen Âge (XIIe siècle - début du XVIe siècle), Thèse de doctorat sous la direction de Daniel Russo et Eliana Magnani, Université de Bourgogne-Franche-Comté, soutenue le 19 décembre 2019.

Ce projet de recherche doctorale porte sur l’organisation des productions scripturaires, sur les pratiques archivistiques et bibliothéconomiques de l’abbaye de Cîteaux, ainsi que sur les diverses formes qu’elles ont pu revêtir au cours du Moyen Âge : création et accroissement des fonds, organisation, préservation des documents, indexation et catalogage, relations avec les usagers…

Il est inscrit dans une historiographie récente, et aujourd’hui internationale, notamment celle de la literacy/littératie – Schriftlichkeit/scripturalité, de la place de l’écrit dans les sociétés, des liens entre archives et écrits, des liens entre objets écrits et modes d’accès à la connaissance : tout d’abord, avec les travaux d’anthropologie culturelle de Jack Goody (1919-), et les recherches pionnières en médiévistique de Michael Clanchy, qui attire l’attention sur le phénomène de « révolution » de l’écrit à partir du XIIe siècle ; ensuite avec le développement, dans les années 1980-1990, d’études touchant aussi bien la dialectique entre « mémoire et oubli » en matière de conservation et de transmission des documents (Patrick J. Geary), la « communauté textuelle » cimentant autour des productions écrites les groupes de lettrés et de non-lettrés (Brian Stock), que, dans le champ de la diplomatique, la « rhétorique visuelle » – la disposition du parchemin et des différents éléments qui composent l’aspect visible du document – et la culture écrite (Peter Rück [1934-2004]), dont celles des actes écrits et des archives cisterciennes (Elke Goez). En France, les travaux de Roger Chartier sur l’histoire de la culture écrite et de ses modalités d’accès, du XVe au XVIIIe siècle, ont également irrigué la recherche récente sur l’ « archéologie de l’écrit » au Moyen Âge (Pierre Chastang), la « fabrique des archives » (Etienne Anheim et Olivier Poncet), et le statut des « sources » en tant que « production sociale » (Joseph Morsel).

Ces études ont comme point commun de prendre en compte tous les aspects liés à la matérialité et à l’archéologie du document, à travers l’étude des processus de cartularisation, c’est-à-dire la mise en registre, la production d’un objet formé de copies de documents ; des processus d’inventaire, soit l’étude des nomenclatures des documents constituant le fonds d’archives – la collection Histoire des bibliothèques françaises, sous la direction d’André Vernet, fait la part belle à l’étude des inventaires de bibliothèques (1989) – ; des processus sociaux aboutissant aux tris de deux types, sélection ou classement, à la conservation, à la destruction ou à la restauration des archives et des manuscrits ; des systèmes d’écritures et des signes graphiques organisant l’écrit – lignes, ponctuation, systèmes de renvois ou encore espaces blancs – et de l’articulation entre le textuel et le visuel.

Jusqu’à présent, contrairement à ce que pourrait nous faire croire l’abondante documentation cistercienne – 1181 cotes aux Archives départementales de Côte-d’Or, et plus de 300 manuscrits conservés à la Bibliothèque municipale de Dijon – , ces considérations n’ont que très peu été prises en compte en ce qui concerne la production scripturaire de l’abbaye de Cîteaux, encore moins sur une période chronologiquement vaste ou pour la fin du Moyen Âge : Yolanta Zaluska a étudié les productions du scriptorium de l’abbaye au XIIe siècle ; le chanoine Jean Marilier (1920-1991) a édité les chartes et documents de 1098 à 1182. Ce projet se veut proche des considérations actuelles sur l’anthropologie cognitive, qui s’interroge sur les modes de pensée et de représentations culturelles, sur les conditions de production et de transmission de cette pensée. Les documents seront examinés d’un point de vue codicologique en prenant en compte l’objet-codex ; d’un point de vue diplomatique, comme l’ont fait Marlène Helias-Baron et Dominique Stutzmann pour la production écrite d’abbayes cisterciennes bourguignonnes ; d’un point de vue iconographique à travers l’étude des projets de décors et de reliures pour les registres et les manuscrits.

Cette étude sera aussi l’occasion de comparer le classement des archives avec l’ordonnancement de la bibliothèque de l’abbaye. Les archives et les bibliothèques monastiques, « lieux d’archivage et d’accumulation », forment souvent une unité et suivent les mêmes logiques sociales et culturelles : préciosité des productions scripturaires, les chartes et les manuscrits les plus précieux étant rangés et déposés dans le Trésor ; élaboration et sauvegarde de la mémoire de l’institution par la conservation des documents ; appréhension de l’appropriation communautaire du territoire et de l’espace à travers la gestion et la mise en forme de la production scripturaire. Car les archives, comme les bibliothèques monastiques, sont construites, voire structurées, en rapport avec les principes sociaux qui servent à ordonner et montrer une institution – par des liens identitaires, des signes de reconnaissance, des valeurs d’échange, des instruments de pouvoir ou encore des liens communautaires –, à en faire « un lieu » existant, un « lieu de savoir », matérialisant une représentation de la culture, « donnant corps au savoir et à la mémoire ».

C’est sous l’abbatiat de Jean de Cirey (1476-1501) que la situation des archives et de la bibliothèque est la mieux connue. Cet abbé a laissé à l’historien des traces matérielles exploitables et abondantes pour la compréhension des logiques propres à la société médiévale et, plus particulièrement, à la société monacale : le classement et la cotation des documents ; réalisation de cartulaires généraux ; le catalogage des livres ; l’entreprise de reliure dans les registres et dans les manuscrits ; impression des premiers ouvrages cisterciens, comme l’incunable de 1491 groupant les privilèges de l’Ordre.

La période chronologique envisagée, XIIe siècle – début du XVIe siècle, est vaste, ceci volontairement et à dessein, permettant ainsi d’inscrire les problématiques dans la longue durée, de dégager des permanences et des évolutions, voire des involutions, et de penser selon des ruptures et des moments significatifs dans la gestion et le classement de la documentation médiévale cistercienne. Ces siècles sont aussi une période de « révolution » de l’écrit, durant laquelle on assiste à l’apparition de nouveaux types d’écrits pragmatiques et de recueils – terriers, censiers, registres de comptabilité – ainsi qu’à leur multiplication, à un recours toujours plus conséquent à l’écrit qui touche toute la société : contrôle et centralisation de l’État, bureaucratisation des chancelleries et des communes. C’est également au prisme de ces transformations sociales qu’il faut envisager et comprendre le cas de l’abbaye de Cîteaux au Moyen Âge.

 

 

Nicolas PERREAUX, L’écriture du monde. Perception, catégorisation et appropriation de l’environnement dans les sources numérisées du Moyen Âge (VIIIe-XIIe s.) : une approche informatique, sémantique et statistique, Thèse de doctorat sous la direction de Daniel Russo et Eliana Magnani, Université de Bourgogne, soutenue en décembre 2014.

La masse de données accumulées ces dernières années grâce à la numérisation croissante des éditions anciennes ne demande qu’à être exploitée. Parmi elles, les documents diplomatiques possèdent, à la fois sur le plan quantitatif et sur le plan qualitatif, une place éminente qui pourrait les appeler à jouer un rôle important dans le renouvellement du regard porté sur le système de représentation de l’Occident médiéval. Ainsi, ces chartes, diplômes, pancartes, regorgent de mentions environnementales très rarement exploitées par les médiévistes. Aqua, terra, arbor, caelum… autant de champs sémantiques fondamentaux pour l’étude de la société médiévale qui rejoignent à la fois les questions d’exégèse, de liturgie et les pratiques sociales (économie, aménagement de l’espace, production agricole…). Une enquête statistique sur l’articulation de ces champs sémantiques serait très instructive et novatrice dans une perspective visant à reconstruire le sens donné au réel au sein d’une société marquée par l’altérité.

Cependant, au vu de la sécheresse de ces mentions, une telle analyse ne peut être réalisée sans l’utilisation d’une masse de données considérable, à une échelle inédite, sous la forme d’un corpus de plusieurs dizaines de milliers de chartes numérisées – une masse que nous ne possédions pas il y a encore quelques années – qu’il s’agira d’employer avec des outils d’analyses et une méthodologie ad hoc, empruntée tant aux mathématiques et à l’informatique, qu’à l’anthropologie sociale et à la sociolinguistique. En utilisant ce vaste corpus documentaire, on pourra aussi dégager les points communs et les divergences qui existaient dans la manière d’écrire et de décrire le monde, au sein des différents scriptoria monastiques.

Traitable à partir des chartes, grâce à l’utilisation des nouvelles technologies et à une approche globale, le sujet est extensible à la plupart des autres documents du Moyen Âge occidental (iconographie, hagiographie, exégèse, exempla…).

Axes de recherches :

La perception / description du monde entre le VIIIe et le XIIe siècle (espace / environnement).

La question du développement inégal au sein du système féodal.

La création du sens dans cette société et les articulations sémantiques entre les différents types documentaires (approche globale).

Le rôle de l’analogie dans le système des représentations de l’Occident médiéval.

Mots-Clés : Sémantique, Diplomatique, Informatique, Statistique, Distributions lexicales, Environnement, Latin médiéval, Base de données, Historiographie, Typologie documentaire, Esthétique, anthropologie.

 

Masters

 

Coraline Rey, L'entreprise archivistique de Jean de Cirey, abbé de Cîteaux (1476-1501). Le dossier documentaire de la seigneurie de Villars en Côte-d'Or, mémoire de Master 2 sous la direction d'Eliana Magnani et Marie-José Gasse-Grandjean, Université de Bourgogne, 2009. Mémoire et compte-rendu en ligne.

Nicolas Perreaux, L'eau, l'écrit et la société. Étude statistique sur les champs sémantiques dans les bases de données, mémoire de Master 2 sous la direction d'Eliana Magnani, Université de Bourgogne, 2010. Compte-rendu en ligne.

 

Comment citer le projet CBMA :

Projet CBMA - Corpus Burgundiae Medii Aevi. Site du projet Corpus de la Bourgogne du Moyen Âge, [En ligne]. http://www.cbma-project.eu (consulté le JJ/MM/AAAA).

Comment citer une ressource mise à disposition par le projet CBMA :

« Titre de la ressource », in Projet CBMA - Corpus Burgundiae Medii Aevi. [Ressource en ligne]. Adresse URL de la ressource (consulté le JJ/MM/AAAA).