L’ensemble des métadonnées d’un corpus, en détails

Pour vous faire une idée générale des questions auxquelles répondent l’ensemble des métadonnées d’un corpus dans l’archive Mulce, commencez par visualiser la description détaillée des différents objets de la banque de corpus Mulce (corpus globale et corpus distinguable). En accédant à la plate-forme, onglet consultation, lien sélection des objets (bouton envoyer), vous obtiendrez une liste illustrée sur la Fig1, qui propose pour chaque objet de la liste un lien (dans la colonne Action) pour visualiser son descriptif détaillé.

Pour une analyse exhaustive des possibilités, il faudra étudier les schémas (XSD) utilisés dans nos corpus. Le fichier imsmanifest.xml contient dans la balise d’en-tête la liste des schémas XSD utilisés. Ces schémas décrivent sans ambiguïté tout ce que l’on peut écrire à l’intérieur d’une structure imsmanifest de type Mulce. Ceux qui sont spécifiques à Mulce se trouvent dans le répertoire : http://lrl-diffusion.univ-bpclermon....

Mais pour une prise en main de la structure (et syntaxe) des différentes parties de métadonnées, commencez par télécharger un corpus de même type (que le corpus à construire), puis, en vous référant à la Fig. 6 (dans la partie précédente), retrouvez, copiez, modifiez et collez les métadonnées aux bons endroits.

Fig1. Liste des objets de l’archive Mulce

Comme l’indique le schéma (Fig1) de la partie précédente, les métadonnées interviennent à plusieurs niveaux dans le corpus. En réalité, il est même possible d’en insérer à chaque niveau du corpus jusqu’à la description fine des interactions. Dans cette partie, nous nous limiterons aux métadonnées essentielles qui permettent de décrire un corpus dans sa globalité (premier niveau) et/ou ses principaux composants (deuxième niveau).

Fig2. Les 5 grands composants d’un corpus global (LETEC)

Selon le type d’objet qu’il représente (i.e. : Corpus Global, Corpus Distinguable ou Scénario pédagogique pure), un package peut avoir différents types de composants et contenir des métadonnées à différents niveaux, mais il doit nécessairement contenir au moins une balise au niveau le plus haut (fils de l’élément).

  • Corpus Global ou LETEC : Comme illustré (Fig2), nous rappelons qu’un corpus global (LETEC) peut comporter les composants suivants : Licence (RIC), Scénario Pédagogique (LD), Protocole de Recherche (RP), Instanciation (SID) et Analyses (Ana). En plus de l’élément (fils de) (cf. 2.1), il peut y avoir des métadonnées dans chacun de ces composants (cf. sections 2.2).
  • Corpus Distinguable : Généralement, un CD (Corpus Distinguable) ne concerne qu’une partie des interactions du corpus global, mais fait référence aux mêmes composants RIC, LD, RP et Licences. Le plus souvent, et pour éviter la redondance des données, le corpus distinguable ne contient pas lui-même les données mais fait référence à des parties du corpus global qui les contiennent. Comme tout objet, il comporte un élément (fils de ). Mais il peut aussi ne comporter dans qu’un seul élément de type métadonnées (mce=http://lrl-diffusion.univ-bpclermon...), décrivant : d’où proviennent les données, quelles sont les questions d’analyse, quels sont les données intermédiaires et où sont les résultats (références aux publications).
  • Scénario Pédagogique (seul) :
    • Si c’est un scénario au format IMS-LD, on doit pouvoir ajouter des méta-données générales (cf. 2.1) dans l’élément racine du CP au même niveau que l’élément .
    • Si c’est un scénario dans tout autre format (simple document texte, HTML, MotPlus, etc.), le CP peut en réalité être de la forme d’un corpus distinguable (qui renvoie à certaines références d’un corpus global et inclut des ressources spécifiques) et ainsi ne contenir qu’un seul élément (mce=http://lrl-diffusion.univ-bpclermont.fr/mulce/metadata/mce-schemas/mce-letec-disting.xsd). Exemple : l’objet scénario identifié dans l’archive par id="mce-simu-ld-01".

Métadonnées générales d’un objet (CG, CD, LD)

L’essence des métadonnées générales est de caractériser l’objet (en tant que tout) pour qu’il puisse être correctement référencé (dans OLAC et Mulce). Sans ces métadonnées, le dépôt de l’objet dans une archive est tout simplement inutile. Cette section donne une liste des informations utilisées pour la description générale des objets (corpus globaux (LETEC), corpus distinguables (CD), ou scénarios pédagogiques (LD)) contenus dans l’archive Mulce. Ces informations sont reprises dans l’enregistrement de l’objet sur l’archive OLAC :

  • Titre, Description, Auteur, Contributeurs (rôles…), Éditeur, Date (de création),
  • Langues des interactions, Sujet, Type, Format, Taille, Durée, Modèle, Composants,
  • URI, Identifiant Mulce, Références bibliographiques et les URL des textes complets,
  • Licence, droits d’accès, Audience.

Métadonnées d’un composant (RIC, RP, LD, SID, Ana)

Les métadonnées des composants d’un corpus (LETEC) doivent se concentrer sur le composant et non plus sur le corpus global. Ainsi, des descripteurs identiques peuvent décrire des informations différentes selon qu’ils se trouvent dans la partie globale ou dans un composant. Exemple : qui désigne tantôt l’identifiant du composant tantôt celui du corpus global.

Certaines informations (les plus importantes) peuvent cependant être dupliquées (sous des formes éventuellement différentes) entre les deux niveaux de métadonnées : niveau composant (cette section) vs niveau global (cf. 2.1). Exemple : la valeur "eng" du descripteur dans la partie globale (OLAC) est reprise dans le descripteur // (valeur="English") des métadonnées du composant scénario pédagogique (LD).

La liste ci-dessous indique les descripteurs que nous avons utilisés à l’intérieur de tous les composants (Learning Object Metadata : LOM utilisé dans le composant LD uniquement)

  • Titre, Description, Auteur, Contributeurs (rôles…), Date (de création),
  • Ressources internes/externes à ce package, Modèles, sous-composants, LOM.

Métadonnées d’un corpus distinguable

Comme les autres types d’objets (CG, LD), un corpus distinguable est organisé sous la forme d’un IMS-CP (content package). Il contient aussi un élément , fils de  : cf. section 2.1 pour la description de son contenu. Mais comme nous l’avons précisé plus haut, les corpus distinguables doivent pouvoir faire référence à des données contenues dans d’autres objets (cf. sur Fig3). C’est pour cette raison qu’ils peuvent accueillir un élément quji est régi par un schéma spécifique (http://lrl-diffusion.univ-bpclermont.fr/mulce/metadata/mce-schemas/mce-letec-disting.xsd) illustré en (Fig3).

Fig3. Schéma général de l’élément spécifique aux corpus distinguables

L’élément de cette spécifique est lui aussi particulier. Il contient tous (mais uniquement) les éléments d’information utiles à la caractérisation de l’objet dans l’archive Mulce (cf. 1.1.1), à savoir :

  • le type d’objet, le type de participants, les technologies employées,
  • la dimension pédagogique, le domaine d’apprentissage,
  • les outils d’analyse, la/les langue(s) et les modalités d’interaction.

NB : Cet élément très particulier ne peut contenir aucune autre information.

Vous trouverez un rapport plus complet sur les métadonnées dans ce fichier :

Rapport d'activité

Schémas (XSD) de structuration XML
IMS-CP, 2007 : Schema for IMS Content Package. Copyright © IMS Global Learning Consortium 1999-2007. Root element . http://www.imsglobal.org/xsd/imscp_v1p1.xsd.
Mce-anony, 2008 : Anonymisation et Structuration des appellations d’acteurs dans les interactions d’un corpus. Root element : . http://lrl-diffusion.univ-bpclermont.fr/mulce/metadata/mce-schemas/mce_anony.xsd.
Mce_highlight, 2009 : Balises de mise en valeur pour l’analyse en ligne des interactions dans un LETEC. Root element : < highlight>. http://lrl-diffusion.univ-bpclermont.fr/mulce/metadata/mce-schemas/mce_highlight.xsd.
Mce-letec-disting, 2009 : Structuration spécifique de l’élément pour les corpus distinguables. Root element : < organization>. http://lrl-diffusion.univ-bpclermont.fr/mulce/metadata/mce-schemas/mce-letec-disting.xsd.
Mce_letec_meta, 2009 : Structuration des metadonnées d’un corpus d’apprentissage (LETEC). Root element : . http://lrl-diffusion.univ-bpclermont.fr/mulce/metadata/mce-schemas/mce_letec_meta.xsd.
Mce_olac_letec, 2009 : Extension a OLAC des types (letec) et rôles (contributor) pour qualifier les métadonnées des objets Mulce. http://lrl-diffusion.univ-bpclermont.fr/mulce/metadata/mce-schemas/mce_olac_letec.xsd.
Mce_sid, 2009 : Schema du composant Instanciation SID (Structurred Interaction Data) d’un corpus global (Letec). Root element : . http://lrl-diffusion.univ-bpclermont.fr/mulce/metadata/mce-schemas/mce_sid.xsd.

Terminologie MULCE

La terminologie utilisée dans le projet Mulce est consultable dans ce répertoire http://lrl-diffusion.univ-bpclermont.fr/mulce/metadata/vdex/

Il comprend en particulier :

Accès

Maison des Sciences de l'Homme
4, rue Ledru, 2ème étage - TSA 70402
63001 Clermont-Ferrand Cedex 1

Laboratoire de Recherche sur le Langage © 2024. Tous droits réservés.