Couverture de la banque de corpus Mulce
Pour accéder aux corpus complets, allez sur http://repository.mulce.org .
Pour plus de détails sur la façon d’accéder, rechercher dans la banque de corpus, voir cet article .
Pour une vue d’ensemble sur les corpus de Mulce dans Mulce.org ou dans OLAC.
La banque de corpus Mulce contient au 25 mai 2012 45 corpus et objets correspondant à 8 formations en ligne. Les actes verbaux (audio, clavardage,blogue, courriel, forum) correspondent à plus de 36 000 actes ou messages et à plus de 1 million de graphies / tokens. Il y a également 10 000 actes non verbaux. Tout est bien sûr téléchargeables.
Voici le détail de la couverture des corpus de la banque Mulce en date du 25 mai 2012.
Commentaires :
- le corpus VMT TeamC ne figure pas ici
- pour les corpus Infral et Ecofralin, les transcriptions des séances en environnement audio-graphique synchrone n’ont pas encore été faites. Mais toutes les données primaires correspondantes (vidéos) sont téléchargeables avec les corpus
- toutes les données verbales et non verbales sont décrites de façon homogènes dans des trcutures XML (Mulce-Struct ou Formats Elan XML, ou TEI)
- toutes les données verbales et non verbales correspondant à des interactions survenues dans des environnements audio-graphiques synchrones ou mondes synthétiques (cf. "classes virtuelles") sont synchronisés avec les vidéos d’écran correspondantes. L’alignement peut être vu à travers de Tatiana ou Elan. L’ensemble est téléchargeable et compris dans les corpus correspondants.
Contenu de la base de corpus
Pour accéder aux corpus complets, allez sur http://repository.mulce.org .
Pour plus de détails sur la façon d’accéder, rechercher dans la banque de corpus, voir cet article .
Pour une vue d’ensemble sur la couverture de Mulce dans Mulce.org ou dans OLAC.
La banque de corpus contient en mai 2013 les objets et corpus suivants :
- corpus d’apprentissage (LETEC) : 8 (corpus globaux)
- corpus distinguables : 36
- scénario pédagogique seul : 1
- protocole de recherche seul : 1
Corpus global / d’apprentissage (LETEC)
Nom du LETEC | Année du projet | Langues | Domaine d’apprentissage | Institutions et participants | Environnements technologiques |
---|---|---|---|---|---|
Archi21 | 2011 | Français (FLE), Anglais (LE) | CLIL / EMILE Architecture | 1 Univ et 1 école d’architecture en France ; 18 part. ; 4 groupes | Monde synthétique / virtuel 3D (Second Life) ; forum audio (Voiceforum) |
Favi | 2006-08 | Français (FLE) | Français académique | 2 univ. France ; 31 parti. ; 2 sessions formation | Clavardage (MSN et WebCT) |
<a href="http://mulce.univ-bpclermont.fr:8080/PlateFormeMulce/VIEW/PUBLIC/03/VMeta.do?adr=Simuligne/Corpus_objets/mce.simu.all.all-CP">Simuligne | 2001 | Français (FLE) | Langues, Interculturel | Grande-Bretagne et France ; 67 parti. ; 4 groupes | Plate-forme asynchrone (WebCT) |
<a href="http://mulce.univ-bpclermont.fr:8080/PlateFormeMulce/VIEW/PUBLIC/03/VMeta.do?adr=Copeas/Corpus_objets/mce-copeas-letec-all">Copéas | 2005 | Anglais et Français | Langues | Grande-Bretagne et France ; 22 parti. ; 2 groupes | Plate-forme asynchrone (WebCT) et Plate-forme audio-graphique synchrone (Lyceum) |
<a href="http://mulce.univ-bpclermont.fr:8080/PlateFormeMulce/VIEW/PUBLIC/03/VMeta.do?adr=Ecofralin/Corpus_objets/mce-ecofralin-letec-all">Ecofralin | 2008 | Espagnol et Français (FLE) | Langues, Interculturel | Colombie et France ; 24 parti. ; 4 quadrems | Blogue et Plate-forme audio-graphique synchrone (Centra) |
<a href="http://mulce.univ-bpclermont.fr:8080/PlateFormeMulce/VIEW/PUBLIC/03/VMeta.do?adr=Infral/Corpus_objets/mce-infral-letec-all">Infral | 2008 | Allemand et Français (FLE) | Langues, Interculturel | Allemange et France ; 26 parti. ; 4 quadrems | Blogue et Plate-forme audio-graphique synchrone (Centra) |
<a href="http://mulce.univ-bpclermont.fr:8080/PlateFormeMulce/VIEW/PUBLIC/03/VMeta.do?adr=Tridem06/Corpus_objets/mce-tridem06-letec-all">Tridem06 | 2006 | Anglais et Français (FLE) | Langues, Interculturel | Grande-Bretagne, Etats-Unis et France ; 62 parti. ; 12 quadrems | Blogue et Plate-forme audio-graphique synchrone (Lyceum) |
<a href="http://mulce.univ-bpclermont.fr:8080/PlateFormeMulce/VIEW/PUBLIC/03/VMeta.do?adr=VMT/Corpus_objets/mce-vmt-letec-teamc">VMT teamC | 2006 | Anglais | Mathématique | Etats-Unis, Singapour et Ecosse ; 12 parti. ; 1 team | Combined TextChat and Whiteboard (VMTForum2006) |
Pour accéder à la fiche descriptive détaillée d’un corpus global, cliquez sur le lien associé à son nom dans le tableau ci-dessus.
Plus de détails sur les corpus globaux dans ce document de janvier 2012.
Corpus distinguables
LETEC associé | Type | Nombre | Contenu | Ressources | Ident |
Simuligne | 1 | 1 | Analyses associées à des articles de recherche | 10 fichiers de données et résultats | oai:mulce.org:mce-simu-sna-all |
Simuligne | 2 | 1 | Rassembler des données prêtes à l’analyse | 96 fichiers de données et résultats | oai:mulce.org:mce-simu-forum-all |
Copéas | 1 | 5 | Analyses associées à des articles de recherche | fichiers de données et résultats, audios et vidéos | oai:mulce.org:mce-copeas-eurocall05-all, oai:mulce.org:mce-copeas-reflexive-tutor-all, oai:mulce.org:mce-copeas-spec-plateforme-all, oai:mulce.org:mce-copeas-T8_s101_ecriture_multimodale-all oai:mulce.org:mce-copeas-T8_s102_ecriture_multimodale-all |
Copéas | 2 | 14 | Rassembler des données prêtes à l’analyse | 62 fichiers de données et résultats, 10 vidéos | |
Copéas | 3 | 5 | Partager des analyses | 27 fichiers de données et résultats, 4 vidéo | oai:mulce.org:mce-copeas-R2_soutien_oral-all, oai:mulce.org:mce-copeas-R6_modes_verbaux_nonverbaux-all, oai:mulce.org:mce-copeas-T5_contexte-all, oai:mulce.org:mce-copeas-T6_multimodalite_textuelle-all |
Infral | 1 | 1 | Analyses associées à des articles de recherche sur un blogue | fichiers Nvivo | oai:mulce.org:mce-infral-csa |
Infral | 2 | 1 | Blogues, segmentation, étiquetage de chaque mot avec reconnaissance langue | XML / TEI | oai:mulce.org:mce-infral-tagged_blogs |
Archi21 | 1 | 2 | Analyses associées à des articles de recherche dans Second Life | Transcriptions, analyses statistiques, XML-ELAN, vidéos | oai:mulce.org:mce-archi21-modality-inteplayoai:mulce.org:mce-archi21-modality-textchat |
Archi21 | 2 | 7 | Rassembler des données prêtes à l’analyse | 7 sessions Second Life transcrites , XML-ELAN, vidéos |
Exemples de corpus distinguables par types
Corpus distinguable (type 1) : Associer publication scientifique et données
Fiche du corpus distinguable lié à l’article CSCL (2003) "Social Network Analysis, online group communication structure and the measure of cohesion" (id : mce-simu-sna-all)
Fiche du corpus distinguable lié à l’article Recall (2005) "Measuring oral participation in audio and textchat with heterogeneous learners" (id : mce-copeas-eurocall05-all)
Fiche du corpus distinguable lié à l’article FDLM (2007) "Spécificités des plateformes audio-graphiques synchrones dans un dispositif de formation" (id : mce-copeas-spec-plateforme-all)
Fiche du corpus distinguable lié à l’article Calico (2006) "When Teaching is Learning : A Personal Account of Learning to Teach Online" (id : mce-copeas-reflexive-tutor-all)
Fiche du corpus distinguable lié à l’article Alsic(2008) "Stratégies d’un apprenant de langue dans une formation en ligne sur une plate-forme audio-synchrone" (id : mce-copeas-strategies-AT6-all)
Corpus distinguable (type 2) : Rassembler des données prêtes à l’analyse avec mise en forme pour outils/logiciels libres
Corpus distinguable Copeas session T5 sur contexte dans environnement multimodal (simple), données mises en forme pour outil Tatiana Fiche du corpus (id : mce-copeas-T5_contexte_simple-all)
Corpus distinguable Simuligne "Aide à l’analyse des forums de Simuligne", données mises en forme pour outil Calico Fiche du corpus (id : mce-simu-forum-all)
Corpus distinguable (type 3) : Partager des analyses avec des outils associés
Corpus distinguable Copeas session T5 sur contexte dans environnement multimodal , analyse réalisée avec outil Tatiana Fiche du corpus (id : mce-copeas-T5_contexte-all)
Exemples de données extraites de corpus
Ces extraits donnent quelques informations à propos des formations qui nous ont servi à construire les banques de corpus Mulce, mais ils ne sont pas présentés de la même façon que ce vous pourrez trouver dans Mulce-pf.
Simuligne formation à distance médiatisée par une plate-forme de télé-formation dans le domaine de l’apprentissage du français comme langue étrangère (FLE) et suivant le modèle pédagogique de la simulation globale.
CoPéAS formation en anglais de spécialité, plate-forme audio-synchrone, multimodalité.
(Attention : pour pouvoir regarder les séquences animées Flash, il faut utiliser Internet Explorer. Elles ne marchent pas dans Firefox)
Corpus, Architecture, services, base de données
Les Corpus que propose la banque Mulce contiennent les données issue d’une situation d’apprentissage en ligne. Ce sont des objets complexes de grande taille et structurés à l’aide d’un manifeste décrivant (en XML) leurs métadonnées, leurs composants (scénario pédagogique, protocole de recherche, licence, acteurs, contexte, données d’interaction, etc.) et leurs ressources (enregistrements audio/vidéo, entretiens, transcriptions etc.). L’ensemble des données : manifeste et ressources (fichiers) sont accessibles en ligne. Leur structuration technique suit le standard IMS-CP.
Tous les corpus de la banque Mulce ont été décrits par des métadonnées embarquées dans les corpus eux-mêmes. Certaines des informations ont été dupliquées dans une base de données (BD Description) permettant de les distinguer dans la collection Mulce à travers l’interface de la plateforme. L’interface offre aux utilisateurs des critères (acteurs, langues, modalité, outils, etc.) pour sélectionner une partie des corpus. Chaque corpus peut ensuite être parcouru ou téléchargé.
Ces mêmes métadonnées sont accessibles aux moissonneurs de OLAC (Open Language Archive Community) qui indexent nos objets dans leurs serveurs internationaux.
Pour documenter le projet (structure, constitution et indexation des corpus et utilisation de la plateforme, etc.) nous avons ajouté le site d’information.
L’architecture technique est basée sur un système Linux (Debian), un serveur Apache, un serveur Tomcat et une base de données MySQL.