Corpus

ISSN: 1765-3126

13 found

View year:

  1.  15
    Le corpus PhraséoRoChe : les défis de l’établissement des textes et de l’hétérogénéité des états de la langue.Corinne Kraif Denoyelle - 2024 - Corpus 25.
    Le corpus PhraséoRoChe se centre sur le roman de chevalerie de langue française écrit en prose. Il rassemble des textes issus d’œuvres produites entre le XIIIe siècle et le XVIIe siècle, période bornée par la naissance et la disparition de ce genre textuel. Pour permettre des interrogations par le lecteur d’aujourd’hui d’un corpus outillé embrassant une diachronie aussi longue, il faut faire des choix concernant l’évolution de la langue, non seulement en traitant le décalage entre le français contemporain et la (...)
    No categories
    Direct download (2 more)  
     
    Export citation  
     
    Bookmark  
  2.  8
    Enjeux des corpus bilingues en diachronie longue : l’exemple du projet MICLE.Mathieu Goux - 2024 - Corpus 25.
    La multiplication des très grands corpus en linguistique historique a entraîné des discussions nombreuses sur les procédures d’annotation et les métadonnées associées, notamment concernant les questions relevant de l’étiquetage morphosyntaxique et de la tokenisation. D’autres sujets cruciaux, en revanche, semblent moins abordés, comme la question de la découpe en propositions ou en « phrases » des données linguistiques, la préservation des informations philologiques ou, encore, la question de l’encodage et des formats de données. Notre contribution explore ces thématiques en prenant (...)
    No categories
    Direct download (2 more)  
     
    Export citation  
     
    Bookmark  
  3.  9
    Chaînes de référence dans le corpus Democrat : une analyse en diachronie longue.Frédéric Glikman Landragin - 2024 - Corpus 25.
    Le corpus Democrat, annoté en expressions référentielles et en chaînes de référence, est paru fin 2019 et a déjà fait l’objet de plusieurs études. Trois ans plus tard, on constate qu’il manque encore des statistiques sur l’ensemble du corpus, et des analyses qui tiennent compte des données à la fois d’un point de vue global – fréquence d’apparition de phénomènes, par ex. – et d’un point de vue local, avec la remise en perspective des annotations dans leur contexte textuel. Cet (...)
    Direct download (2 more)  
     
    Export citation  
     
    Bookmark  
  4.  8
    Croiser les corpus calibrés pour faire l’histoire de la langue : le cas de l’antéposition stylistique de l’infinitif et du participe.Pierre Goux Larrivée - 2024 - Corpus 25.
    Notre article illustre l’utilité de la calibration générique des corpus pour l’analyse diachronique de la langue française. Nous explorons le cas de l’antéposition stylistique de l’infinitif et du participe au sein de trois corpus constitués respectivement de textes littéraires, de coutumiers normands et de procès, de la période de l’ancien français à celle du français classique. Le calibrage générique montre que les évolutions de ces phénomènes d’antéposition diffèrent selon le type de texte, et que les textes légaux montrent une surreprésentation (...)
    No categories
    Direct download (2 more)  
     
    Export citation  
     
    Bookmark  
  5.  7
    La BFM 2022 : un corpus pour les recherches diachroniques en français médiéval et au-delà.Alexei Guillot-Barbance Lavrentiev - 2024 - Corpus 25.
    La Base de français médiéval (BFM) fait partie des corpus de français médiéval (9e-15e s.) les plus anciens et les plus utilisés par les linguistes diachroniciens et plus largement par tous ceux qui s’intéressent à l’histoire du français. Elle est le fruit d’une collaboration entre linguistes-philologues et spécialistes de la méthode textométrique implémentée dans la plateforme TXM. L’article présente un état des lieux du corpus BFM2022 focalisé sur la représentativité et l’interopérabilité des données. Il illustre l’apport des outils numériques pour (...)
    No categories
    Direct download (2 more)  
     
    Export citation  
     
    Bookmark  
  6.  2
    Anna Jaubert, La Stylisation du discours, Paris, Classique Garnier, 2023, 290 pages. [REVIEW]Damon Mayaffre - 2024 - Corpus 25.
    Dans une écriture serrée scientifiquement mais toujours agile, Anna Jaubert nous livre, 30 ans après Lecture pragmatique (Hachette, 1990), le fruit de plusieurs décennies de réflexion théorique et pratique sur la stylistique. La problématique ambitieuse de cette « stylistique pragmatique » trouve ici sa justification dans un suffixe : la « stylisation » du discours nous dit le titre, plutôt que le « style ». C’est ainsi une conception dynamique qui se déploie sur presque 300 pages, 3 grandes...
    No categories
    Direct download (2 more)  
     
    Export citation  
     
    Bookmark  
  7.  10
    Profiterole : un corpus morpho-syntaxique et syntaxique de français médiéval.Sophie Grobol Prévost - 2024 - Corpus 25.
    Le projet ANR Profiterole avait pour objectifs la constitution de ressources pour le français médiéval (9e-15e s.) : un corpus annoté en (morpho-)syntaxe et des lexiques, la conception d'analyseurs syntaxiques pour le français médiéval, le développement d’outils de diffusion et d’analyse textométrique de l’annotation syntaxique dans le contexte de la plateforme TXM, et, enfin, la modélisation de certains aspects syntaxiques de l’évolution du français. Nous commençons par décrire la constitution du corpus Profiterole en termes de choix de textes, genres et (...)
    No categories
    Direct download (2 more)  
     
    Export citation  
     
    Bookmark  
  8.  8
    Annotation de textes d’états de langue anciens : pour le redéploiement de l’existant.Adam Kraif Renwick - 2024 - Corpus 25.
    Dans le cadre de la construction du corpus PhraseoRoChe, un corpus diachronique rassemblant des romans de chevalerie du 13e au 17e siècle, cet article s’intéresse aux performances de différents analyseurs (étiqueteurs, lemmatiseurs, parseurs en dépendances) entrainés sur des états de langue connexes allant de l’ancien français au moyen français et au français moderne. Nous étudions ainsi la possibilité d’étendre ces analyseurs au-delà des états de langues précis sur lesquels ils ont été entrainés, en s’appuyant notamment sur les divergences entre analyseurs (...)
    No categories
    Direct download (2 more)  
     
    Export citation  
     
    Bookmark  
  9.  9
    La constitution de corpus en diachronie longue : méthodologies, objectifs et exploitations linguistiques et stylistiques.Julie Kraif Sorba - 2024 - Corpus 25.
    Depuis plusieurs décennies, la numérisation des textes anciens et les progrès du TAL pour les traiter et les interroger ont largement modifié nos habitudes de travail. Il est désormais possible d’obtenir des données quantitatives massives qui affinent notre perception des phénomènes linguistiques et stylistiques dans des corpus écrits dans des états de langue anciens. Les corpus numériques créés depuis maintenant près d’un quart de siècle permettent d’envisager plus facilement la dynamique du...
    No categories
    Direct download (2 more)  
     
    Export citation  
     
    Bookmark  
  10.  5
    Hyperbase Web. (Hyper)Bases, Corpus, Langage.Laurent Vanni - 2024 - Corpus 25.
    Hyperbase est un logiciel d’Analyse de Données Textuelles (ADT) qui offre une suite d’outils statistiques dédiés à l’étude de corpus. Initialement développé sur ordinateur de bureau, il se décline depuis 2015 en plateforme web offrant une interface à l’ergonomie travaillée pour un usage tourné vers les sciences humaines et sociales. Après un rappel méthodologique de l’ADT, cette contribution présente Hyperbase Web version 2024, à partir d’exemples concrets d’usages, de notes techniques ainsi que des entrées par le menu (manuel d’utilisateur). Cette (...)
    No categories
    Direct download (2 more)  
     
    Export citation  
     
    Bookmark  
  11.  12
    Constitution d’un corpus plurilingue en sociolinguistique historique : objectifs, méthodologie et défis.Carole Werner - 2024 - Corpus 25.
    Cet article présente et discute la méthodologie de construction d’un corpus plurilingue en diachronie longue (1681-1914). Puisqu’il n’existait pas de corpus alsacien significatif, un important travail de construction d’un corpus significatif a été mené afin de constituer un corpus documentant les contacts linguistiques dans les écrits des locuteurs-scripteurs alsaciens. Cette tâche a présenté un certain nombre de défis méthodologiques causés par le contact des langues, la variation sociolinguistique et diachronique, le manque de sources primaires et de documents numérisés. Parmi ces (...)
    No categories
    Direct download (2 more)  
     
    Export citation  
     
    Bookmark  
  12.  5
    Tagset adaptation to language changing over time. The case of the masculine personal category in the Electronic Corpus of 17th and 18.Aleksandra Wieczorek - 2024 - Corpus 25.
    Cet article présente les solutions utilisées pour le Corpus électronique des textes polonais des 17e et 18e siècles afin d’adapter son jeu de balises grammaticales à l’évolution du système morphologique qui a eu lieu au cours de la période. Les 17e et 18e siècles ont été marqués en effet par la formation d’une nouvelle catégorie grammaticale, appelée « masculine-personality » (Pl. *męskoosobowość*). Cette époque marque une transition de l’état ancien à l’état moderne et se caractérise par une variation significative des (...)
    No categories
    Direct download (2 more)  
     
    Export citation  
     
    Bookmark  
  13.  12
    The diachronic evolution of artistic terminology in translation. Building a parallel corpus of Giorgio Vasari’s Le Vite.Valeria Henkel Zotti - 2024 - Corpus 25.
    This article describes the methods involved in building a diachronic multilingual corpus devoted to Fine Arts, beginning with G. Vasari's Lives of the most excellent Italian architects, sculptors and painters (1568) as the fundamental source text in the field of Art History. Attention is given to automatic pre-alignment, the special proofreading protocol and segmentation rules developed to allow multilingual and/or diachronic alignment of multiple texts, and the difficulties inherent in annotating a multilingual database. A case study is offered, comparing the (...)
    Direct download (2 more)  
     
    Export citation  
     
    Bookmark  
 Previous issues
  
Next issues