Analyse computationnelle de textes de théâtre français : Classification automatique du type de didascalies
Langue Français
Langue Français
Auteur(s) : Schneider, Alexia
Directeur : Ruiz Fabo, Pablo
Composante : LANG
Établissement : Université de Strasbourg
Date de création : 30-06-2024
Description : Les didascalies, éléments textuels ou métatextuels intermédiaires entre la lecture et l'interprétation, sont des indications de mise en scène qui ont longtemps été négligées par la recherche en littérature mais suscitent un regain d’intérêt dans le domaine des Humanités Numériques. Des études en Computational Literary Studies (CLS) portant sur des aspects tels que la configuration dramatique, la représentation des personnages ou de la société, ou encore l’analyse de réseaux de relation mettent en évidence l’intérêt d’annoter le contenu sémantique des didascalies. L’automatisation de la classification permet l’application d’une même typologie à un grand nombre de pièces. Ce mémoire compare différents classifieurs automatiques du type de didascalies à partir d’une typologie applicable à divers sujets d'étude en CLS. Cette typologie à 13 classes ainsi qu’une typologie héritée directement de l'annotation manuelle du French Drama Corpus (FreDraCor) a permis d’établir deux jeux de données pour l'entraînement des modèles. L’analyse qualitative et quantitative des classifications générées par douze classifieurs montre que les modèles d'apprentissage par transfert, affinés sur une typologie générique, sont les plus adaptés à la tâche de classification supervisée pour les données hétérogènes que sont les didascalies en langue française., Stage directions are textual elements that have long been neglected in literary research but are experiencing a renewed interest in the field of Digital Humanities. Studies in Computational Literary Studies (CLS) focusing on aspects such as dramatic configuration, character and societal representation, or the analysis of relational networks highlight the importance of annotating the semantic content of stage directions. An automatic classification allows for a consistent typology to be applied to a large number of plays. This thesis compares various automatic classifiers of stage direction types based on a typology applicable to diverse CLS studies. This 13-class typology, along with a typology inherited from the manual annotation of the French Drama Corpus (FreDraCor), enabled the establishment of two datasets for model training. Qualitative and quantitative analysis of the classifications generated by twelve classifiers shows that transfer learning models, fine-tuned on a generic typology, are the most suitable for a supervised classification task on stage directions in the French language.
Discipline : Technologie des langues
Mots-clés libres : Traitement automatique du langage naturel, Théâtre, 410
Couverture : FR
Directeur : Ruiz Fabo, Pablo
Composante : LANG
Établissement : Université de Strasbourg
Date de création : 30-06-2024
Description : Les didascalies, éléments textuels ou métatextuels intermédiaires entre la lecture et l'interprétation, sont des indications de mise en scène qui ont longtemps été négligées par la recherche en littérature mais suscitent un regain d’intérêt dans le domaine des Humanités Numériques. Des études en Computational Literary Studies (CLS) portant sur des aspects tels que la configuration dramatique, la représentation des personnages ou de la société, ou encore l’analyse de réseaux de relation mettent en évidence l’intérêt d’annoter le contenu sémantique des didascalies. L’automatisation de la classification permet l’application d’une même typologie à un grand nombre de pièces. Ce mémoire compare différents classifieurs automatiques du type de didascalies à partir d’une typologie applicable à divers sujets d'étude en CLS. Cette typologie à 13 classes ainsi qu’une typologie héritée directement de l'annotation manuelle du French Drama Corpus (FreDraCor) a permis d’établir deux jeux de données pour l'entraînement des modèles. L’analyse qualitative et quantitative des classifications générées par douze classifieurs montre que les modèles d'apprentissage par transfert, affinés sur une typologie générique, sont les plus adaptés à la tâche de classification supervisée pour les données hétérogènes que sont les didascalies en langue française., Stage directions are textual elements that have long been neglected in literary research but are experiencing a renewed interest in the field of Digital Humanities. Studies in Computational Literary Studies (CLS) focusing on aspects such as dramatic configuration, character and societal representation, or the analysis of relational networks highlight the importance of annotating the semantic content of stage directions. An automatic classification allows for a consistent typology to be applied to a large number of plays. This thesis compares various automatic classifiers of stage direction types based on a typology applicable to diverse CLS studies. This 13-class typology, along with a typology inherited from the manual annotation of the French Drama Corpus (FreDraCor), enabled the establishment of two datasets for model training. Qualitative and quantitative analysis of the classifications generated by twelve classifiers shows that transfer learning models, fine-tuned on a generic typology, are the most suitable for a supervised classification task on stage directions in the French language.
Discipline : Technologie des langues
Mots-clés libres : Traitement automatique du langage naturel, Théâtre, 410
Couverture : FR
Type : Mémoire de master, Memoire Unistra
Format : Document PDF
Source(s) :
Format : Document PDF
Source(s) :
- http://www.sudoc.fr/281441626
Entrepôt d'origine :
Identifiant : ecrin-ori-374667
Type de ressource : Ressource documentaire
Identifiant : ecrin-ori-374667
Type de ressource : Ressource documentaire