Constitution de corpus:publier au format XML-TEI des dictionnaires et des encyclopédies de la Chine ancienne
Langue Français
Langue Français
Auteur(s) : KONG, Zijun
Directeur(s) : Bizais, Marie, Ruiz Fabo, Pablo
Date de création : 30-06-2022
Résumé(s) : La construction de corpus du chinois classique a toujours été confrontée à de nombreux défis. D'une part, son vaste vocabulaire combiné au support incomplet d'Unicode rend la numérisation extrêmement difficile. D'autre part, en raison de l'absence d'outils TAL pertinents, la création de tels corpus devient très laborieuse. Cependant, ces dernières années, la croissance explosive des modèles pré-entraînés, poussée par l'émergence de la structure Transformer, a introduit plusieurs dédiés à ce domaine. Ces modèles pré-entraînés ont ouvert de nouvelles possibilités pour la construction de corpus du chinois classique. Dans ce projet, nous avons conçu une chaîne de traitement complète pour la construction de corpus du chinois classique, qui comprend l'acquisition de texte, le traitement du texte (impliquant diverses méthodes d'apprentissage automatique, y compris des modèles pré-entraînés), la construction automatisée et la relecture, etc.
Discipline : Technologies des langues
Mots-clés libres : Corpus linguistique, Chinois, Corpus du chinois classique Traitement Automatique des Langues (TAL) XML-TEI Modèles pré-entraînés, 418
Couverture : FR
Directeur(s) : Bizais, Marie, Ruiz Fabo, Pablo
Date de création : 30-06-2022
Résumé(s) : La construction de corpus du chinois classique a toujours été confrontée à de nombreux défis. D'une part, son vaste vocabulaire combiné au support incomplet d'Unicode rend la numérisation extrêmement difficile. D'autre part, en raison de l'absence d'outils TAL pertinents, la création de tels corpus devient très laborieuse. Cependant, ces dernières années, la croissance explosive des modèles pré-entraînés, poussée par l'émergence de la structure Transformer, a introduit plusieurs dédiés à ce domaine. Ces modèles pré-entraînés ont ouvert de nouvelles possibilités pour la construction de corpus du chinois classique. Dans ce projet, nous avons conçu une chaîne de traitement complète pour la construction de corpus du chinois classique, qui comprend l'acquisition de texte, le traitement du texte (impliquant diverses méthodes d'apprentissage automatique, y compris des modèles pré-entraînés), la construction automatisée et la relecture, etc.
Discipline : Technologies des langues
Mots-clés libres : Corpus linguistique, Chinois, Corpus du chinois classique Traitement Automatique des Langues (TAL) XML-TEI Modèles pré-entraînés, 418
Couverture : FR
Type : Mémoire de master, Memoire Unistra
Format : PDF
Source(s) :
Format : PDF
Source(s) :
- http://www.sudoc.fr/272124788
Entrepôt d'origine :
Identifiant : ecrin-ori-348867
Type de ressource : Ressource documentaire
Identifiant : ecrin-ori-348867
Type de ressource : Ressource documentaire