LRL - Diffusion

Couverture de la banque de corpus Mulce

Pour accéder aux corpus complets, allez sur http://repository.mulce.org .
Pour plus de détails sur la façon d’accéder, rechercher dans la banque de corpus, voir cet article .
Pour une vue d’ensemble sur les corpus de Mulce dans Mulce.org ou dans OLAC.

La banque de corpus Mulce contient au 25 mai 2012 45 corpus et objets correspondant à 8 formations en ligne. Les actes verbaux (audio, clavardage,blogue, courriel, forum) correspondent à plus de 36 000 actes ou messages et à plus de 1 million de graphies / tokens. Il y a également 10 000 actes non verbaux. Tout est bien sûr téléchargeables.
Voici le détail de la couverture des corpus de la banque Mulce en date du 25 mai 2012.

Commentaires :

le corpus VMT TeamC ne figure pas ici
pour les corpus Infral et Ecofralin, les transcriptions des séances en environnement audio-graphique synchrone n’ont pas encore été faites. Mais toutes les données primaires correspondantes (vidéos) sont téléchargeables avec les corpus
toutes les données verbales et non verbales sont décrites de façon homogènes dans des trcutures XML (Mulce-Struct ou Formats Elan XML, ou TEI)
toutes les données verbales et non verbales correspondant à des interactions survenues dans des environnements audio-graphiques synchrones ou mondes synthétiques (cf. "classes virtuelles") sont synchronisés avec les vidéos d’écran correspondantes. L’alignement peut être vu à travers de Tatiana ou Elan. L’ensemble est téléchargeable et compris dans les corpus correspondants.

Contenu de la base de corpus

Pour accéder aux corpus complets, allez sur http://repository.mulce.org .
Pour plus de détails sur la façon d’accéder, rechercher dans la banque de corpus, voir cet article .
Pour une vue d’ensemble sur la couverture de Mulce dans Mulce.org ou dans OLAC.

La banque de corpus contient en mai 2013 les objets et corpus suivants :

corpus d’apprentissage (LETEC) : 8 (corpus globaux)
corpus distinguables : 36
scénario pédagogique seul : 1
protocole de recherche seul : 1

Corpus global / d’apprentissage (LETEC)

Nom du LETEC	Année du projet	Langues	Domaine d’apprentissage	Institutions et participants	Environnements technologiques
Archi21	2011	Français (FLE), Anglais (LE)	CLIL / EMILE Architecture	1 Univ et 1 école d’architecture en France ; 18 part. ; 4 groupes	Monde synthétique / virtuel 3D (Second Life) ; forum audio (Voiceforum)
Favi	2006-08	Français (FLE)	Français académique	2 univ. France ; 31 parti. ; 2 sessions formation	Clavardage (MSN et WebCT)
<a href="http://mulce.univ-bpclermont.fr:8080/PlateFormeMulce/VIEW/PUBLIC/03/VMeta.do?adr=Simuligne/Corpus_objets/mce.simu.all.all-CP">Simuligne	2001	Français (FLE)	Langues, Interculturel	Grande-Bretagne et France ; 67 parti. ; 4 groupes	Plate-forme asynchrone (WebCT)
<a href="http://mulce.univ-bpclermont.fr:8080/PlateFormeMulce/VIEW/PUBLIC/03/VMeta.do?adr=Copeas/Corpus_objets/mce-copeas-letec-all">Copéas	2005	Anglais et Français	Langues	Grande-Bretagne et France ; 22 parti. ; 2 groupes	Plate-forme asynchrone (WebCT) et Plate-forme audio-graphique synchrone (Lyceum)
<a href="http://mulce.univ-bpclermont.fr:8080/PlateFormeMulce/VIEW/PUBLIC/03/VMeta.do?adr=Ecofralin/Corpus_objets/mce-ecofralin-letec-all">Ecofralin	2008	Espagnol et Français (FLE)	Langues, Interculturel	Colombie et France ; 24 parti. ; 4 quadrems	Blogue et Plate-forme audio-graphique synchrone (Centra)
<a href="http://mulce.univ-bpclermont.fr:8080/PlateFormeMulce/VIEW/PUBLIC/03/VMeta.do?adr=Infral/Corpus_objets/mce-infral-letec-all">Infral	2008	Allemand et Français (FLE)	Langues, Interculturel	Allemange et France ; 26 parti. ; 4 quadrems	Blogue et Plate-forme audio-graphique synchrone (Centra)
<a href="http://mulce.univ-bpclermont.fr:8080/PlateFormeMulce/VIEW/PUBLIC/03/VMeta.do?adr=Tridem06/Corpus_objets/mce-tridem06-letec-all">Tridem06	2006	Anglais et Français (FLE)	Langues, Interculturel	Grande-Bretagne, Etats-Unis et France ; 62 parti. ; 12 quadrems	Blogue et Plate-forme audio-graphique synchrone (Lyceum)
<a href="http://mulce.univ-bpclermont.fr:8080/PlateFormeMulce/VIEW/PUBLIC/03/VMeta.do?adr=VMT/Corpus_objets/mce-vmt-letec-teamc">VMT teamC	2006	Anglais	Mathématique	Etats-Unis, Singapour et Ecosse ; 12 parti. ; 1 team	Combined TextChat and Whiteboard (VMTForum2006)

Pour accéder à la fiche descriptive détaillée d’un corpus global, cliquez sur le lien associé à son nom dans le tableau ci-dessus.
Plus de détails sur les corpus globaux dans ce document de janvier 2012.

Corpus distinguables

LETEC associé	Type	Nombre	Contenu	Ressources	Ident
Simuligne	1	1	Analyses associées à des articles de recherche	10 fichiers de données et résultats	oai:mulce.org:mce-simu-sna-all
Simuligne	2	1	Rassembler des données prêtes à l’analyse	96 fichiers de données et résultats	oai:mulce.org:mce-simu-forum-all
Copéas	1	5	Analyses associées à des articles de recherche	fichiers de données et résultats, audios et vidéos	oai:mulce.org:mce-copeas-eurocall05-all, oai:mulce.org:mce-copeas-reflexive-tutor-all, oai:mulce.org:mce-copeas-spec-plateforme-all, oai:mulce.org:mce-copeas-T8_s101_ecriture_multimodale-all oai:mulce.org:mce-copeas-T8_s102_ecriture_multimodale-all
Copéas	2	14	Rassembler des données prêtes à l’analyse	62 fichiers de données et résultats, 10 vidéos
Copéas	3	5	Partager des analyses	27 fichiers de données et résultats, 4 vidéo	oai:mulce.org:mce-copeas-R2_soutien_oral-all, oai:mulce.org:mce-copeas-R6_modes_verbaux_nonverbaux-all, oai:mulce.org:mce-copeas-T5_contexte-all, oai:mulce.org:mce-copeas-T6_multimodalite_textuelle-all
Infral	1	1	Analyses associées à des articles de recherche sur un blogue	fichiers Nvivo	oai:mulce.org:mce-infral-csa
Infral	2	1	Blogues, segmentation, étiquetage de chaque mot avec reconnaissance langue	XML / TEI	oai:mulce.org:mce-infral-tagged_blogs
Archi21	1	2	Analyses associées à des articles de recherche dans Second Life	Transcriptions, analyses statistiques, XML-ELAN, vidéos	oai:mulce.org:mce-archi21-modality-inteplay oai:mulce.org:mce-archi21-modality-textchat
Archi21	2	7	Rassembler des données prêtes à l’analyse	7 sessions Second Life transcrites , XML-ELAN, vidéos

Exemples de corpus distinguables par types

Corpus distinguable (type 1) : Associer publication scientifique et données

Fiche du corpus distinguable lié à l’article CSCL (2003) "Social Network Analysis, online group communication structure and the measure of cohesion" (id : mce-simu-sna-all)

Fiche du corpus distinguable lié à l’article Recall (2005) "Measuring oral participation in audio and textchat with heterogeneous learners" (id : mce-copeas-eurocall05-all)

Fiche du corpus distinguable lié à l’article FDLM (2007) "Spécificités des plateformes audio-graphiques synchrones dans un dispositif de formation" (id : mce-copeas-spec-plateforme-all)

Fiche du corpus distinguable lié à l’article Calico (2006) "When Teaching is Learning : A Personal Account of Learning to Teach Online" (id : mce-copeas-reflexive-tutor-all)

Fiche du corpus distinguable lié à l’article Alsic(2008) "Stratégies d’un apprenant de langue dans une formation en ligne sur une plate-forme audio-synchrone" (id : mce-copeas-strategies-AT6-all)

Corpus distinguable (type 2) : Rassembler des données prêtes à l’analyse avec mise en forme pour outils/logiciels libres

Corpus distinguable Copeas session T5 sur contexte dans environnement multimodal (simple), données mises en forme pour outil Tatiana Fiche du corpus (id : mce-copeas-T5_contexte_simple-all)

Corpus distinguable Simuligne "Aide à l’analyse des forums de Simuligne", données mises en forme pour outil Calico Fiche du corpus (id : mce-simu-forum-all)

Corpus distinguable (type 3) : Partager des analyses avec des outils associés

Corpus distinguable Copeas session T5 sur contexte dans environnement multimodal , analyse réalisée avec outil Tatiana Fiche du corpus (id : mce-copeas-T5_contexte-all)

Contenu de la base de corpus globaux

Exemples de données extraites de corpus

Ces extraits donnent quelques informations à propos des formations qui nous ont servi à construire les banques de corpus Mulce, mais ils ne sont pas présentés de la même façon que ce vous pourrez trouver dans Mulce-pf.

Simuligne formation à distance médiatisée par une plate-forme de télé-formation dans le domaine de l’apprentissage du français comme langue étrangère (FLE) et suivant le modèle pédagogique de la simulation globale.

CoPéAS formation en anglais de spécialité, plate-forme audio-synchrone, multimodalité.
(Attention : pour pouvoir regarder les séquences animées Flash, il faut utiliser Internet Explorer. Elles ne marchent pas dans Firefox)

Corpus, Architecture, services, base de données

Les Corpus que propose la banque Mulce contiennent les données issue d’une situation d’apprentissage en ligne. Ce sont des objets complexes de grande taille et structurés à l’aide d’un manifeste décrivant (en XML) leurs métadonnées, leurs composants (scénario pédagogique, protocole de recherche, licence, acteurs, contexte, données d’interaction, etc.) et leurs ressources (enregistrements audio/vidéo, entretiens, transcriptions etc.). L’ensemble des données : manifeste et ressources (fichiers) sont accessibles en ligne. Leur structuration technique suit le standard IMS-CP.

Tous les corpus de la banque Mulce ont été décrits par des métadonnées embarquées dans les corpus eux-mêmes. Certaines des informations ont été dupliquées dans une base de données (BD Description) permettant de les distinguer dans la collection Mulce à travers l’interface de la plateforme. L’interface offre aux utilisateurs des critères (acteurs, langues, modalité, outils, etc.) pour sélectionner une partie des corpus. Chaque corpus peut ensuite être parcouru ou téléchargé.
Ces mêmes métadonnées sont accessibles aux moissonneurs de OLAC (Open Language Archive Community) qui indexent nos objets dans leurs serveurs internationaux.
Pour documenter le projet (structure, constitution et indexation des corpus et utilisation de la plateforme, etc.) nous avons ajouté le site d’information.

L’architecture technique est basée sur un système Linux (Debian), un serveur Apache, un serveur Tomcat et une base de données MySQL.

Accès

Maison des Sciences de l'Homme
4, rue Ledru, 2ème étage - TSA 70402
63001 Clermont-Ferrand Cedex 1

Mentions légales