Traduction automatique des dialectes alsaciens vers l’allemand standard :
Langue Français
Langue Français
Auteur(s) : Wurps, Franka Emilie
Directeur(s) : Bernhard, Delphine
Composante : LANG
Établissement : Université de Strasbourg
Date de création : 30-06-2024
Résumé(s) : La traduction automatique (TA) basée sur les réseaux neuronaux fait aujourd'hui l'objet de recherches intensives. Les modèles multilingues, avec la génération de texte comme objectif, sont bien développés et pré-entraînés pour les langues bien dotées. Les langues peu dotées sont toutefois plus difficiles à gérer. La faible quantité de données disponibles rend la TA difficile. Un autre facteur de plus grande complication est le manque de normalisation à l’écrit de ces langues. Ce projet de recherche vise à développer la traduction automatique pour les dialectes alsaciens par un rapprochement vers deux langues germaniques. Des modèles de traduction multilingues (M2M-100, Opus-MT, SMALL-100, NLLB-200) ont été utilisés, ainsi qu'un grand modèle de langues (ChatGPT 3.5) (LLM). Pour ce rapprochement vers deux langues germaniques (l’allemand et le luxembourgeois), plusieurs transformations de corpus ont été développées. Afin d’estimer l’intérêt de notre approche, chaque transformation suivie par la traduction par les modèles évoqués a été évaluée selon les métriques d’évaluation courantes. Un gold standard avant toute transformation a également été créé. Après plusieurs transformations et évaluations, nous avons pu confirmer que quel que soit le corpus, la transformation ou la langue, le grand modèle de langues est clairement et sans aucun doute supérieur aux modèles multilingues pour toutes les métriques appliquées. Nous concluons en évoquant quelques pistes d’amélioration et perspectives pour ce travail.
Discipline : Technologie des langues
Mots-clés libres : Traduction automatique, Alsaciens, 437.944
Couverture : FR
Directeur(s) : Bernhard, Delphine
Composante : LANG
Établissement : Université de Strasbourg
Date de création : 30-06-2024
Résumé(s) : La traduction automatique (TA) basée sur les réseaux neuronaux fait aujourd'hui l'objet de recherches intensives. Les modèles multilingues, avec la génération de texte comme objectif, sont bien développés et pré-entraînés pour les langues bien dotées. Les langues peu dotées sont toutefois plus difficiles à gérer. La faible quantité de données disponibles rend la TA difficile. Un autre facteur de plus grande complication est le manque de normalisation à l’écrit de ces langues. Ce projet de recherche vise à développer la traduction automatique pour les dialectes alsaciens par un rapprochement vers deux langues germaniques. Des modèles de traduction multilingues (M2M-100, Opus-MT, SMALL-100, NLLB-200) ont été utilisés, ainsi qu'un grand modèle de langues (ChatGPT 3.5) (LLM). Pour ce rapprochement vers deux langues germaniques (l’allemand et le luxembourgeois), plusieurs transformations de corpus ont été développées. Afin d’estimer l’intérêt de notre approche, chaque transformation suivie par la traduction par les modèles évoqués a été évaluée selon les métriques d’évaluation courantes. Un gold standard avant toute transformation a également été créé. Après plusieurs transformations et évaluations, nous avons pu confirmer que quel que soit le corpus, la transformation ou la langue, le grand modèle de langues est clairement et sans aucun doute supérieur aux modèles multilingues pour toutes les métriques appliquées. Nous concluons en évoquant quelques pistes d’amélioration et perspectives pour ce travail.
Discipline : Technologie des langues
Mots-clés libres : Traduction automatique, Alsaciens, 437.944
Couverture : FR
Type : Mémoire de master, Memoire Unistra
Format : Document PDF
Source(s) :
Format : Document PDF
Source(s) :
- http://www.sudoc.fr/280853491
Entrepôt d'origine :
Identifiant : ecrin-ori-373453
Type de ressource : Ressource documentaire
Identifiant : ecrin-ori-373453
Type de ressource : Ressource documentaire