Couverture de la banque de corpus Mulce

Pour accéder aux corpus complets, allez sur http://repository.mulce.org .
Pour plus de détails sur la façon d’accéder, rechercher dans la banque de corpus, voir cet article .
Pour une vue d’ensemble sur les corpus de Mulce dans Mulce.org ou dans OLAC.

La banque de corpus Mulce contient au 25 mai 2012 45 corpus et objets correspondant à 8 formations en ligne. Les actes verbaux (audio, clavardage,blogue, courriel, forum) correspondent à plus de 36 000 actes ou messages et à plus de 1 million de graphies / tokens. Il y a également 10 000 actes non verbaux. Tout est bien sûr téléchargeables.
Voici le détail de la couverture des corpus de la banque Mulce en date du 25 mai 2012.

Commentaires :

  • le corpus VMT TeamC ne figure pas ici
  • pour les corpus Infral et Ecofralin, les transcriptions des séances en environnement audio-graphique synchrone n’ont pas encore été faites. Mais toutes les données primaires correspondantes (vidéos) sont téléchargeables avec les corpus
  • toutes les données verbales et non verbales sont décrites de façon homogènes dans des trcutures XML (Mulce-Struct ou Formats Elan XML, ou TEI)
  • toutes les données verbales et non verbales correspondant à des interactions survenues dans des environnements audio-graphiques synchrones ou mondes synthétiques (cf. "classes virtuelles") sont synchronisés avec les vidéos d’écran correspondantes. L’alignement peut être vu à travers de Tatiana ou Elan. L’ensemble est téléchargeable et compris dans les corpus correspondants.

Contenu de la base de corpus

Pour accéder aux corpus complets, allez sur http://repository.mulce.org .
Pour plus de détails sur la façon d’accéder, rechercher dans la banque de corpus, voir cet article .
Pour une vue d’ensemble sur la couverture de Mulce dans Mulce.org ou dans OLAC.

La banque de corpus contient en mai 2013 les objets et corpus suivants :

Corpus global / d’apprentissage (LETEC)

Nom du LETECAnnée du projetLanguesDomaine d’apprentissageInstitutions et participantsEnvironnements technologiques
Archi212011Français (FLE), Anglais (LE)CLIL / EMILE Architecture1 Univ et 1 école d’architecture en France ; 18 part. ; 4 groupesMonde synthétique / virtuel 3D (Second Life) ; forum audio (Voiceforum)
Favi2006-08Français (FLE)Français académique2 univ. France ; 31 parti. ; 2 sessions formationClavardage (MSN et WebCT)
<a href="http://mulce.univ-bpclermont.fr:8080/PlateFormeMulce/VIEW/PUBLIC/03/VMeta.do?adr=Simuligne/Corpus_objets/mce.simu.all.all-CP">Simuligne2001Français (FLE)Langues, InterculturelGrande-Bretagne et France ; 67 parti. ; 4 groupesPlate-forme asynchrone (WebCT)
<a href="http://mulce.univ-bpclermont.fr:8080/PlateFormeMulce/VIEW/PUBLIC/03/VMeta.do?adr=Copeas/Corpus_objets/mce-copeas-letec-all">Copéas2005Anglais et FrançaisLanguesGrande-Bretagne et France ; 22 parti. ; 2 groupesPlate-forme asynchrone (WebCT) et Plate-forme audio-graphique synchrone (Lyceum)
<a href="http://mulce.univ-bpclermont.fr:8080/PlateFormeMulce/VIEW/PUBLIC/03/VMeta.do?adr=Ecofralin/Corpus_objets/mce-ecofralin-letec-all">Ecofralin2008Espagnol et Français (FLE)Langues, InterculturelColombie et France ; 24 parti. ; 4 quadremsBlogue et Plate-forme audio-graphique synchrone (Centra)
<a href="http://mulce.univ-bpclermont.fr:8080/PlateFormeMulce/VIEW/PUBLIC/03/VMeta.do?adr=Infral/Corpus_objets/mce-infral-letec-all">Infral2008Allemand et Français (FLE)Langues, InterculturelAllemange et France ; 26 parti. ; 4 quadremsBlogue et Plate-forme audio-graphique synchrone (Centra)
<a href="http://mulce.univ-bpclermont.fr:8080/PlateFormeMulce/VIEW/PUBLIC/03/VMeta.do?adr=Tridem06/Corpus_objets/mce-tridem06-letec-all">Tridem062006Anglais et Français (FLE)Langues, InterculturelGrande-Bretagne, Etats-Unis et France ; 62 parti. ; 12 quadremsBlogue et Plate-forme audio-graphique synchrone (Lyceum)
<a href="http://mulce.univ-bpclermont.fr:8080/PlateFormeMulce/VIEW/PUBLIC/03/VMeta.do?adr=VMT/Corpus_objets/mce-vmt-letec-teamc">VMT teamC2006AnglaisMathématiqueEtats-Unis, Singapour et Ecosse ; 12 parti. ; 1 teamCombined TextChat and Whiteboard (VMTForum2006)

Pour accéder à la fiche descriptive détaillée d’un corpus global, cliquez sur le lien associé à son nom dans le tableau ci-dessus.
Plus de détails sur les corpus globaux dans ce document de janvier 2012.

Corpus distinguables

LETEC associéTypeNombre ContenuRessourcesIdent
Simuligne11Analyses associées à des articles de recherche10 fichiers de données et résultatsoai:mulce.org:mce-simu-sna-all
Simuligne21Rassembler des données prêtes à l’analyse96 fichiers de données et résultatsoai:mulce.org:mce-simu-forum-all
Copéas15Analyses associées à des articles de recherchefichiers de données et résultats, audios et vidéosoai:mulce.org:mce-copeas-eurocall05-all, oai:mulce.org:mce-copeas-reflexive-tutor-all, oai:mulce.org:mce-copeas-spec-plateforme-all, oai:mulce.org:mce-copeas-T8_s101_ecriture_multimodale-all oai:mulce.org:mce-copeas-T8_s102_ecriture_multimodale-all
Copéas214Rassembler des données prêtes à l’analyse62 fichiers de données et résultats, 10 vidéos 
Copéas35Partager des analyses27 fichiers de données et résultats, 4 vidéooai:mulce.org:mce-copeas-R2_soutien_oral-all, oai:mulce.org:mce-copeas-R6_modes_verbaux_nonverbaux-all, oai:mulce.org:mce-copeas-T5_contexte-all, oai:mulce.org:mce-copeas-T6_multimodalite_textuelle-all
Infral11Analyses associées à des articles de recherche sur un bloguefichiers Nvivooai:mulce.org:mce-infral-csa
Infral21Blogues, segmentation, étiquetage de chaque mot avec reconnaissance langueXML / TEIoai:mulce.org:mce-infral-tagged_blogs
Archi2112Analyses associées à des articles de recherche dans Second LifeTranscriptions, analyses statistiques, XML-ELAN, vidéosoai:mulce.org:mce-archi21-modality-inteplayoai:mulce.org:mce-archi21-modality-textchat
Archi2127Rassembler des données prêtes à l’analyse7 sessions Second Life transcrites , XML-ELAN, vidéos 

Exemples de corpus distinguables par types

Corpus distinguable (type 1) : Associer publication scientifique et données

- Fiche du corpus distinguable lié à l’article CSCL (2003) "Social Network Analysis, online group communication structure and the measure of cohesion" (id : mce-simu-sna-all)

- Fiche du corpus distinguable lié à l’article Recall (2005) "Measuring oral participation in audio and textchat with heterogeneous learners" (id : mce-copeas-eurocall05-all)

- Fiche du corpus distinguable lié à l’article FDLM (2007) "Spécificités des plateformes audio-graphiques synchrones dans un dispositif de formation" (id : mce-copeas-spec-plateforme-all)

- Fiche du corpus distinguable lié à l’article Calico (2006) "When Teaching is Learning : A Personal Account of Learning to Teach Online" (id : mce-copeas-reflexive-tutor-all)

- Fiche du corpus distinguable lié à l’article Alsic(2008) "Stratégies d’un apprenant de langue dans une formation en ligne sur une plate-forme audio-synchrone" (id : mce-copeas-strategies-AT6-all)

Corpus distinguable (type 2) : Rassembler des données prêtes à l’analyse avec mise en forme pour outils/logiciels libres

- Corpus distinguable Copeas session T5 sur contexte dans environnement multimodal (simple), données mises en forme pour outil Tatiana Fiche du corpus (id : mce-copeas-T5_contexte_simple-all)

- Corpus distinguable Simuligne "Aide à l’analyse des forums de Simuligne", données mises en forme pour outil Calico Fiche du corpus (id : mce-simu-forum-all)

Corpus distinguable (type 3) : Partager des analyses avec des outils associés

- Corpus distinguable Copeas session T5 sur contexte dans environnement multimodal , analyse réalisée avec outil Tatiana Fiche du corpus (id : mce-copeas-T5_contexte-all)

Contenu de la base de corpus globaux

Exemples de données extraites de corpus

Ces extraits donnent quelques informations à propos des formations qui nous ont servi à construire les banques de corpus Mulce, mais ils ne sont pas présentés de la même façon que ce vous pourrez trouver dans Mulce-pf.

- Simuligne formation à distance médiatisée par une plate-forme de télé-formation dans le domaine de l’apprentissage du français comme langue étrangère (FLE) et suivant le modèle pédagogique de la simulation globale.

- CoPéAS formation en anglais de spécialité, plate-forme audio-synchrone, multimodalité.
(Attention : pour pouvoir regarder les séquences animées Flash, il faut utiliser Internet Explorer. Elles ne marchent pas dans Firefox)

Corpus, Architecture, services, base de données

Les Corpus que propose la banque Mulce contiennent les données issue d’une situation d’apprentissage en ligne. Ce sont des objets complexes de grande taille et structurés à l’aide d’un manifeste décrivant (en XML) leurs métadonnées, leurs composants (scénario pédagogique, protocole de recherche, licence, acteurs, contexte, données d’interaction, etc.) et leurs ressources (enregistrements audio/vidéo, entretiens, transcriptions etc.). L’ensemble des données : manifeste et ressources (fichiers) sont accessibles en ligne. Leur structuration technique suit le standard IMS-CP.

Tous les corpus de la banque Mulce ont été décrits par des métadonnées embarquées dans les corpus eux-mêmes. Certaines des informations ont été dupliquées dans une base de données (BD Description) permettant de les distinguer dans la collection Mulce à travers l’interface de la plateforme. L’interface offre aux utilisateurs des critères (acteurs, langues, modalité, outils, etc.) pour sélectionner une partie des corpus. Chaque corpus peut ensuite être parcouru ou téléchargé.
Ces mêmes métadonnées sont accessibles aux moissonneurs de OLAC (Open Language Archive Community) qui indexent nos objets dans leurs serveurs internationaux.
Pour documenter le projet (structure, constitution et indexation des corpus et utilisation de la plateforme, etc.) nous avons ajouté le site d’information.

L’architecture technique est basée sur un système Linux (Debian), un serveur Apache, un serveur Tomcat et une base de données MySQL.

Accès

Maison des Sciences de l'Homme
4, rue Ledru, 2ème étage - TSA 70402
63001 Clermont-Ferrand Cedex 1

Laboratoire de Recherche sur le Langage © 2024. Tous droits réservés.