ECRIN | Document : Constitution de corpus:publier au format XML-TEI des dictionnaires et des encyclopédies de la Chine ancienne

Imprimer Version XML Ajouter à mon panier

Constitution de corpus:publier au format XML-TEI des dictionnaires et des encyclopédies de la Chine ancienne
Langue Français

Accès au(x) document(s)

Accéder au document

Droits : Accès libre

Informations générales

Auteur(s) : KONG, Zijun
Directeur(s) : Bizais, Marie, Ruiz Fabo, Pablo
Composante : Faculté des langues
Date de création : 30-06-2022

Résumé(s) : La construction de corpus du chinois classique a toujours été confrontée à de nombreux défis. D'une part, son vaste vocabulaire combiné au support incomplet d'Unicode rend la numérisation extrêmement difficile. D'autre part, en raison de l'absence d'outils TAL pertinents, la création de tels corpus devient très laborieuse. Cependant, ces dernières années, la croissance explosive des modèles pré-entraînés, poussée par l'émergence de la structure Transformer, a introduit plusieurs dédiés à ce domaine. Ces modèles pré-entraînés ont ouvert de nouvelles possibilités pour la construction de corpus du chinois classique. Dans ce projet, nous avons conçu une chaîne de traitement complète pour la construction de corpus du chinois classique, qui comprend l'acquisition de texte, le traitement du texte (impliquant diverses méthodes d'apprentissage automatique, y compris des modèles pré-entraînés), la construction automatisée et la relecture, etc.
Discipline : Technologies des langues

Mots-clés libres :

Corpus linguistique
Chinois
Corpus du chinois classique Traitement Automatique des Langues (TAL) XML-TEI Modèles pré-entraînés
418

Couverture : FR

Informations techniques

Type : Mémoire de master, Memoire Unistra
Format : PDF

Source(s) :

http://www.sudoc.fr/272124788

Informations complémentaires

Entrepôt d'origine :

Identifiant : ecrin-ori-348867
Type de ressource : Ressource documentaire