Enjeux des corpus bilingues en diachronie longue : l’exemple du projet MICLE

Corpus 25 (2024)
  Copy   BIBTEX

Abstract

La multiplication des très grands corpus en linguistique historique a entraîné des discussions nombreuses sur les procédures d’annotation et les métadonnées associées, notamment concernant les questions relevant de l’étiquetage morphosyntaxique et de la tokenisation. D’autres sujets cruciaux, en revanche, semblent moins abordés, comme la question de la découpe en propositions ou en « phrases » des données linguistiques, la préservation des informations philologiques ou, encore, la question de l’encodage et des formats de données. Notre contribution explore ces thématiques en prenant exemple sur le corpus MICLE, qui a dû résoudre des difficultés inédites au long de sa constitution.

Links

PhilArchive



    Upload a copy of this work     Papers currently archived: 92,261

External links

Setup an account with your affiliations in order to access resources via your University's proxy server

Through your library

Similar books and articles

Analytics

Added to PP
2024-02-02

Downloads
8 (#1,322,828)

6 months
8 (#370,225)

Historical graph of downloads
How can I increase my downloads?

Citations of this work

No citations found.

Add more citations

References found in this work

No references found.

Add more references