La base sous TXM

CBMA 2022 pour TXM Corpus sur Nakala (DOI)






Version 2017
Télécharger la base pour TXM	Télécharger la notice d'information	Corpus sur Nakala (DOI)
Rappels Le Corpus Burgundiae Medii Aevi est aujourd’hui le premier corpus diplomatique lemmatisé en accès ouvert. La base (pour TXM) contient dans son état actuel 27 094 documents, essentiellement latins, répartis du VI^e au XIV^e siècle, soit plus de 6,1 millions de mots. Au total, plus de 70 éditions ont été numérisées depuis 2004 afin d’aboutir à cet ensemble. Disponible dans divers formats, déjà interrogeable grâce au logiciel Philologic (dir. Mark Olsen, ARTFL, Université de Chicago), la base est ainsi disponible dans un nouveau format, adapté au logiciel TXM. La lemmatisation est une étape essentielle dans l’examen numérique des textes anciens, car elle rend possible des interrogations philologiques et sémantiques formalisées complexes. Grâce à elle, il devient envisageable d’interroger non seulement des formes (ex. : « aquam »), mais aussi des lemmes subsumant toutes les formes qui lui sont liées (ex. : « aqua » permet d’obtenir les informations pour « aqua », « aquam », « aquae », « aquas », « aquarum », etc.). Les textes du corpus CBMA ont été lemmatisés grâce aux paramètres développés par l’équipe de l’ANR Omnia (http://www.glossaria.eu/treetagger/) pour le logiciel TreeTagger[1]. Cette lemmatisation offre d’ores et déjà d’excellents résultats, même s’ils restent perfectibles : merci de nous signaler les erreurs rencontrées au cours de vos recherches. Les logiciels permettant l’exploitation d’une base de textes anciens lemmatisés sont peu nombreux. TXM-Textométrie, développé depuis 2007 (dir. Serge Heiden, ENS Lyon) offre de nombreux avantages. Open Source, la plateforme d’interrogation présente une interface simple, efficace et flexible. La formulation des requêtes se fait sur le modèle du CQL (Corpus Query Language), grâce à l’utilisation du moteur de recherche plein texte CQP (Corpus Query Processor).
Installation et métadonnées du corpus L’installation de la base CBMA requiert au préalable celle de TXM[2]. Le logiciel est téléchargeable sur le site mentionné ci-dessus, pour Linux, Mac OS X et Windows. Une fois celui-ci disponible sur votre système d’exploitation, il s’agit d’installer la base CBMA. Pour cela, rendez-vous dans le menu « Fichier », puis « Importer », et choisissez l’option « XML /w + CSV ». Cliquez ensuite sur « Sélectionner le répertoire de source » et indiquez le répertoire où le corpus CBMA aura préalablement été décompressé. Dans la rubrique "Langue principale", décochez la case "Annoter le corpus". Il suffit ensuite de « Lancer l’import du corpus ». Sur une configuration moyenne, l’installation dure quelques dizaines de minutes. Nous conseillons de redémarrer TXM une fois l’installation du corpus complétée. La base se compose dans sa version actuelle des 27 094 fichiers-textes, auxquels se trouve adjoint un fichier de métadonnées (« metadata.csv », format UTF-8). C’est dans celui-ci que l’on trouvera les éléments nécessaires aux tris réalisables lors des requêtes. Chaque texte se trouve ainsi pourvu des rubriques suivantes : id : code d’identification du document (ex. : « 0507_DijonSaintBenigne_12018 ») n_cbma : numéro CBMA du document edition : référence simplifiée de l’édition (ex. : « Dijon (Saint-Bénigne) ») date : date simplifiée, en 4 chiffres date_ed : date donnée dans l’édition analyse_ed : analyse donnée par l’éditeur analyse_cbma : analyse donnée par l’équipe des CBMA edition_ref : référence complète de l’édition et du document tradition : tradition donnée par l’éditeur diocèse : diocèse renseigné par l’équipe CBMA auteur_code : code CBMA pour l’auteur de l’acte diplomatique beneficiaire_code : code CBMA pour le bénéficiaire de l’acte diplomatique auteur_nom : nom de l’auteur de l’acte diplomatique beneficiaire_nom : nom du bénéficiaire de l’acte diplomatique auteur_lieu : lieu d’émission de l’acte diplomatique genre : genre diplomatique (ex. : « charte », « diplôme », « bulle », « notice »). Ces métadonnées ne sont pas à l’heure actuelle renseignées pour tous les actes. Elles permettent néanmoins des requêtes poussées, par exemple sur un sous-corpus de bulles, ou encore sur les actes d’un ou plusieurs diocèses sélectionnés. De telles requêtes facilitent les approches comparatistes.
Requêtes et tris sur le corpus : quelques exemples Une fois le corpus CBMA chargé, sélectionnez-le dans la fenêtre corpus (à gauche). On peut alors effectuer des requêtes de base, en cliquant sur l’option « Calculer une concordance » (en haut de la fenêtre corpus). Pour composer sa requête, il est possible soit d’utiliser l’assistant (icône représentant une baguette), ou d’entrer directement la commande. La recherche d’un mot au sein du corpus se fait grâce à la commande suivante : [word="aquam"] On peut aussi chercher les références liées à un lemme : [lemma="aqua"] L’astérisque associée à un point (.) sert de joker : [word="aqu."] Il est bien entendu possible de combiner ces éléments, pour la recherche de formules : [word="sicut"][lemma="aqua"] Une requête peut par ailleurs prendre en compte un espacement hypothétique entre deux termes, grâce à l’option []{x,y} (x indiquant l’espacement minimal, y l’espacement maximal) : [lemma="terra"][]{0,2}[lemma="communis"] Il est possible d’interroger des éléments morphosyntaxiques, par exemple en réclamant les concordances pour les adjectifs/qualificatifs suivant un nom : [lemma="terra"][pos="QLF"] TXM offre par ailleurs la possibilité de calculer les cooccurrences* d’un terme ou d’une requête, à partir d’un autre menu situé au-dessus de la fenêtre corpus (icône : deux cercles imbriqués). Si le langage de requête est identique à celui des concordances simples, on peut ici fixer les propriétés des cooccurrents (mots, lemmes ou pos, soit « word », « lemma » et « pos »), la fenêtre de calcul (plus ou moins x mots autour de la requête), ainsi que des seuils de (co)-fréquence minimaux et maximaux. L’interface supporte le tri à partir des métadonnées. Dans le cas des dates (= classement par ordre chronologique), on peut partir des identifiants des textes, dont l’indication est systématiquement présente. Il suffit alors de cliquer sur la colonne « text_id », présentée avec la concordance. On peut en outre ajouter des options de tri, en cliquant avec le bouton droit de la souris, puis en sélectionnant « Options d’affichage des références » et « Options de tri des références ». Il devient alors possible de trier les résultats par diocèse, ou encore par type d’auteur, etc. On peut toutefois aller plus loin, en créant des sous-corpus à partir des métadonnées. Pour ce faire, il faut cliquer avec le bouton droit sur l’onglet CBMA dans la fenêtre corpus, puis choisir « Sous-corpus ». On sélectionne alors la propriété désirée (par ex. « auteurcode » et la valeur « PA (pape, cardinal) »), tout en entrant un nom pour la sous-partition. Celle-ci s’affiche ensuite dans la fenêtre corpus, sous l’onglet CBMA. Des requêtes standards peuvent ensuite être effectuées sur le sous-corpus. Il ne s’agit là que de quelques exemples, les possibilités étant extrêmement variées. TXM propose ainsi le calcul du lexique pour une requête (donne par ex. les fréquences pour les formes liées à un lemme), la production de graphes de progression d’une requête dans le corpus, ou encore la visualisation de données par des procédures formalisées (analyses factorielles, clustering, etc.).
Nicolas Perreaux (SFB 1095, Université de Francfort), pour l’équipe CBMA août 2017

[1] Le logiciel TreeTagger est un étiqueteur morphosyntaxique (POS – Part of Speech) permettant la lemmatisation : http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/. Concernant le développement de l’ANR Omnia, voir B. Bon, « OMNIA – Outils et Méthodes Numériques pour l’Interrogation et l’Analyse des textes médiolatins », in : Bulletin du Centre médiéval d’Auxerre, vol. 13 (2009) : https://cem.revues.org/11086 ; vol. 14 (2010) : https://cem.revues.org/11566 ; vol. 15 (2011) : https://cem.revues.org/12015.
[2] TXM possède un manuel détaillé, auquel s’ajoute une liste de diffusion où il est possible de poser des questions techniques : https://sourceforge.net/projects/txm/files/documentation/

Ces réalisations ont été possibles grâce au soutien du Lamop (UMR 8589), du LabEx haStec (en partenariat avec l’IRHT, le CESOR, le Centre Jean Mabillon, le CERCOR) et du SFB 1095-Université de Francfort.

Comment citer le projet CBMA : Projet CBMA - Corpus Burgundiae Medii Aevi. Site du projet Corpus de la Bourgogne du Moyen Âge, [En ligne]. http://www.cbma-project.eu (consulté le JJ/MM/AAAA).
Comment citer une ressource mise à disposition par le projet CBMA : « Titre de la ressource ou numéro CBMA (n. CBMA) », in Projet CBMA - Corpus Burgundiae Medii Aevi. [Ressource en ligne]. Adresse URL de la ressource (consulté le JJ/MM/AAAA).