<?xml version="1.0" encoding="UTF-8"?>
<oaidc:dc xmlns:oaidc="http://www.openarchives.org/OAI/2.0/oai_dc/" xmlns:oai_dc="http://www.openarchives.org/OAI/2.0/oai_dc/" xmlns:dcterms="http://purl.org/dc/terms/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns:dc="http://purl.org/dc/elements/1.1/" xsi:schemaLocation="http://www.openarchives.org/OAI/2.0/oai_dc/ http://www.openarchives.org/OAI/2.0/oai_dc.xsd">
<dc:contributor xsi:type="unistra:Directeur">Bizais, Marie</dc:contributor>
<dc:contributor xsi:type="unistra:Directeur">Ruiz Fabo, Pablo</dc:contributor>
<dc:coverage xsi:type="unistra:Coverage">FR</dc:coverage>
<dc:creator xsi:type="unistra:Auteur">KONG, Zijun</dc:creator>
<dc:date xsi:type="unistra:Date">2022-06-30</dc:date>
<dc:description xsi:type="unistra:Discipline" xml:langue="fre">Technologies des langues</dc:description>
<dc:description xsi:type="unistra:Resume" xml:langue="fre">La construction de corpus du chinois classique a toujours été confrontée à de nombreux défis. D'une part, son vaste vocabulaire combiné au support incomplet d'Unicode rend la numérisation extrêmement difficile. D'autre part, en raison de l'absence d'outils TAL pertinents, la création de tels corpus devient très laborieuse. Cependant, ces dernières années, la croissance explosive des modèles pré-entraînés, poussée par l'émergence de la structure Transformer, a introduit plusieurs dédiés à ce domaine. Ces modèles pré-entraînés ont ouvert de nouvelles possibilités pour la construction de corpus du chinois classique. Dans ce projet, nous avons conçu une chaîne de traitement complète pour la construction de corpus du chinois classique, qui comprend l'acquisition de texte, le traitement du texte (impliquant diverses méthodes d'apprentissage automatique, y compris des modèles pré-entraînés), la construction automatisée et la relecture, etc.</dc:description>
<dc:format xsi:type="dcterms:IMT">PDF</dc:format>
<dc:rights xsi:type="unistra:Droits" xml:lang="fre">Accès libre</dc:rights>
<dc:identifier xsi:type="dcterms:URI">https://publication-theses.unistra.fr/public/memoires/2023/FLCE/2023_KONG_Zijun.pdf</dc:identifier>
<dc:language xsi:type="dcterms:ISO639-2">fr</dc:language>
<dc:publisher xsi:type="unistra:Composante">Faculté des langues</dc:publisher>
<dc:source xsi:type="dcterms:URI">http://www.sudoc.fr/272124788</dc:source>
<dc:subject xml:langue="fre">Corpus linguistique</dc:subject>
<dc:subject xml:langue="fre">Chinois</dc:subject>
<dc:subject xml:langue="fre">Corpus du chinois classique Traitement Automatique des Langues (TAL) XML-TEI Modèles pré-entraînés</dc:subject>
<dc:subject xml:langue="fre">418</dc:subject>
<dc:title xsi:type="unistra:Titre" xml:lang="fre">Constitution de corpus:publier au format XML-TEI des dictionnaires et des encyclopédies de la Chine ancienne</dc:title>
<dc:type xsi:type="unistra:Mention">Mémoire de master</dc:type>
<dc:type xsi:type="unistra:Memoire">Memoire Unistra</dc:type>
</oaidc:dc>
