Un corpus d’apprentissage correspondant à une expérience de formation est un méga corpus comportant une trop grande quantité de données pour pouvoir offrir des objets aisément analysables. En outre, ces données sont de nature hétérogène et relèvent de phénomènes complexes et dynamiques.

Il devient alors nécessaire de travailler à partir d’unité intermédiaire, d’où la constitution de corpus distinguables (Reffay et al., 2008 : s 2.6). En partant d’un corpus d’apprentissage, que l’on qualifiera de corpus global, il est possible de produire des corpus distinguables, chacun correspondant au grain habituellement retenu par un chercheur pour y accomplir une analyse sur un phénomène précis.

Le corpus distinguable est tout à la fois un sous-corpus du corpus d’apprentissage et un corpus en soi. Son container est de même format que celui d’un corpus global. Au contraire du dernier, il est facilement téléchargeable sur un ordinateur personnel. Le chercheur dispose alors d’un ensemble comportant une description structurée du corpus, contextualisé par rapport au corpus global (sous forme de commentaires libres et d’index précis renvoyant sur chacune des sous-parties d’un corpus global), des outils d’analyse associés et un ensemble de données prêtes à l’analyse ou contenant déjà des résultats d’analyse.

Enfin des liens relient un corpus distinguable à son corpus global et, le cas échéant, à d’autres corpus distinguables pour des analyses inter-corpus.

Les corpus distinguables constitués dans Mulce répondent à trois objectifs variés, que nous distinguerons en trois types de corpus distinguables :

-  associer publication scientifique et données (type 1) ;

-  rassembler des données prêtes à l’analyse avec mise en forme pour outils/logiciels libres (type 2) ;

-  partager des analyses avec des outils associés (type 3).

Le lecteur trouvera sur le site de banque de corpus Mulce des exemples de ces différents types de corpus.

Accès

Maison des Sciences de l'Homme
4, rue Ledru, 2ème étage - TSA 70402
63001 Clermont-Ferrand Cedex 1

Laboratoire de Recherche sur le Langage © 2024. Tous droits réservés.