<?xml version="1.0" encoding="UTF-8"?><mets:mets xmlns:mets="http://www.loc.gov/METS/" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:dcterms="http://purl.org/dc/terms/" xmlns:mads="http://www.loc.gov/mads/" xmlns:metsRights="http://cosimo.stanford.edu/sdr/metsrights/" xmlns:suj="http://www.theses.fr/namespace/sujets" xmlns:tef="http://www.abes.fr/abes/documents/tef" xmlns:tefextension="http://www.abes.fr/abes/documents/tefextension" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.loc.gov/METS/ http://www.abes.fr/abes/documents/tef/recommandation/tef_schemas.xsd">
<mets:metsHdr CREATEDATE="2013-12-17T13:04:05" ID="ABES.STAR.THESE_40141.METS_HEADER" LASTMODDATE="2024-05-26T03:15:32Z" RECORDSTATUS="valide">
<mets:agent ROLE="CREATOR">
<mets:name/>
<mets:note>Note</mets:note>
</mets:agent>
<mets:agent ROLE="DISSEMINATOR">
<mets:name>ABES</mets:name>
</mets:agent>
<mets:altRecordID ID="ABES.STAR.THESE_40141.METS_HEADER.ALTERNATE" TYPE=""/>
</mets:metsHdr>
<mets:dmdSec ID="ABES.STAR.THESE_40141.DESCRIPTION_BIBLIOGRAPHIQUE">
<mets:mdWrap MDTYPE="OTHER" OTHERMDTYPE="tef_desc_these">
<mets:xmlData>
<tef:thesisRecord>
<dc:title xml:lang="fr">Vers des moteurs de recherche "intelligents" : un outil de détection automatique de thèmes : méthode basée sur l'identification automatique des chaînes de référence</dc:title>
<dcterms:alternative xml:lang="en">Toward "intelligent" search engines : an automatic topic detection tool : method based on automatic reference chains identification</dcterms:alternative>
<dc:subject xml:lang="fr">Détection automatique de thèmes</dc:subject>
<dc:subject xml:lang="fr">Chaînes de référence</dc:subject>
<dc:subject xml:lang="fr">Traitement automatique des langues</dc:subject>
<dc:subject xml:lang="fr">Sémantique lexicale</dc:subject>
<dc:subject xml:lang="fr">Coréférence</dc:subject>
<dc:subject xml:lang="fr">Genres textuels</dc:subject>
<dc:subject xml:lang="fr">Segmentation thématique</dc:subject>
<dc:subject xml:lang="fr">Marqueurs linguistiques</dc:subject>
<dc:subject xml:lang="fr">Cohésion</dc:subject>
<dc:subject xml:lang="fr">Linguistique de corpus</dc:subject>
<dc:subject xml:lang="en">Topic detection</dc:subject>
<dc:subject xml:lang="en">Reference chains</dc:subject>
<dc:subject xml:lang="en">Natural language processing</dc:subject>
<dc:subject xml:lang="en">Lexical semantics</dc:subject>
<dc:subject xml:lang="en">Coreference</dc:subject>
<dc:subject xml:lang="en">Textual genre</dc:subject>
<dc:subject xml:lang="en">Topic segmentation</dc:subject>
<dc:subject xml:lang="en">Linguistic markers</dc:subject>
<dc:subject xml:lang="en">Cohesion</dc:subject>
<dc:subject xml:lang="en">Corpus linguistics</dc:subject>
<dc:subject xsi:type="dcterms:DDC">401.4</dc:subject>
<dc:subject xsi:type="dcterms:DDC">004.678</dc:subject>
<tef:sujetRameau xml:lang="fr">
<tef:vedetteRameauNomCommun>
<tef:elementdEntree autoriteExterne="027985830" autoriteSource="Sudoc">Traitement automatique du langage naturel</tef:elementdEntree>
</tef:vedetteRameauNomCommun>
<tef:vedetteRameauNomCommun>
<tef:elementdEntree autoriteExterne="027319776" autoriteSource="Sudoc">Anaphore (linguistique)</tef:elementdEntree>
</tef:vedetteRameauNomCommun>
<tef:vedetteRameauNomCommun>
<tef:elementdEntree autoriteExterne="027262944" autoriteSource="Sudoc">Référence (linguistique)</tef:elementdEntree>
</tef:vedetteRameauNomCommun>
<tef:vedetteRameauNomCommun>
<tef:elementdEntree autoriteExterne="035167734" autoriteSource="Sudoc">Moteurs de recherche sur Internet</tef:elementdEntree>
</tef:vedetteRameauNomCommun>
<tef:vedetteRameauNomCommun>
<tef:elementdEntree autoriteExterne="027326489" autoriteSource="Sudoc">Linguistique -- Informatique</tef:elementdEntree>
</tef:vedetteRameauNomCommun>
</tef:sujetRameau>
<dcterms:abstract xml:lang="fr">Cette thèse se situe dans le domaine du Traitement Automatique des Langues et vise à optimiser la classification des documents dans les moteurs de recherche. Les travaux se concentrent sur le développement d’un outil de détection automatique des thèmes des documents (ATDS-fr). Utilisant peu de connaissances, la méthode hybride adoptée allie des techniques statistiques de segmentation thématique à des méthodes linguistiques identifiant des marqueurs de cohésion. Parmi eux, les chaînes de référence – séquence d’expressions référentielles se rapportant à la même entité du discours (e.g. Paul…il…cet homme) – ont fait l’objet d’une attention particulière, car elles constituent un indice textuel important dans la détection des thèmes (i.e. ce sont des marqueurs d’introduction, de maintien et de changement thématique). Ainsi, à partir d’une étude des chaînes de référence menée dans un corpus issu de genres textuels variés (analyses politiques, rapports publics, lois européennes,éditoriaux, roman), nous avons développé un module d’identification automatique des chaînes de référence RefGen qui a été évalué suivant les métriques actuelles de la coréférence.</dcterms:abstract>
<dcterms:abstract xml:lang="en">This thesis in the field of Natural Language Processing aims at optimizing documents classification in search engines. This work focuses on the development of a tool that automatically detects documents topics (ATDS-fr). Using poor knowledge, the hybrid method combines statistical techniques for topic segmentation and linguistic methods that identify cohesive markers. Among them, reference chains - sequences of referential expressions referring to the same entity (e.g. Paul ... he ... this man) - have been given special attention as they are important topic markers (i.e. they are markers of topic introduction, maintenance and change). Thus, from a study of reference chains extracted from a corpus composed of various textual genres (newspapers, public reports, European laws, editorials and novel) we developed RefGen, an automatic reference chains identification module, which was evaluated according to current coreference metrics.</dcterms:abstract>
<dc:type>Electronic Thesis or Dissertation</dc:type>
<dc:type xsi:type="dcterms:DCMIType">Text</dc:type>
<dc:language xsi:type="dcterms:RFC3066">fr</dc:language>
</tef:thesisRecord>
</mets:xmlData>
</mets:mdWrap>
</mets:dmdSec>
<mets:dmdSec ID="ABES.STAR.THESE_40141.VERSION_COMPLETE.DESCRIPTION.EDITION_ARCHIVAGE">
<mets:mdWrap MDTYPE="OTHER" OTHERMDTYPE="tef_desc_edition">
<mets:xmlData>
<tef:edition>
<dcterms:medium xsi:type="dcterms:IMT">PDF</dcterms:medium>
<dcterms:extent>3529370</dcterms:extent>
<tef:editeur>
<tef:nom>Université de Strasbourg</tef:nom>
<tef:place>Strasbourg</tef:place>
</tef:editeur>
<dcterms:issued xsi:type="dcterms:W3CDTF">2014-12-31</dcterms:issued>
</tef:edition>
</mets:xmlData>
</mets:mdWrap>
</mets:dmdSec>
<mets:dmdSec ID="ABES.STAR.THESE_40141.VERSION_COMPLETE.DESCRIPTION.EDITION_1">
<mets:mdWrap MDTYPE="OTHER" OTHERMDTYPE="tef_desc_edition">
<mets:xmlData>
<tef:edition>
<dcterms:medium xsi:type="dcterms:IMT">application/pdf</dcterms:medium>
<dcterms:extent/>
<dc:identifier xsi:type="dcterms:URI">https://publication-theses.unistra.fr/restreint/theses_doctorat/2013/longo_laurence_2013_ED520.pdf</dc:identifier>
</tef:edition>
</mets:xmlData>
</mets:mdWrap>
</mets:dmdSec>
<mets:amdSec>
<mets:techMD ID="ABES.STAR.THESE_40141.ADMINISTRATION">
<mets:mdWrap MDTYPE="OTHER" OTHERMDTYPE="tef_admin_these">
<mets:xmlData>
<tef:thesisAdmin>
<tef:auteur>
<tef:nom>Longo</tef:nom>
<tef:prenom>Laurence</tef:prenom>
<tef:dateNaissance>1983-02-01</tef:dateNaissance>
<tef:nationalite scheme="ISO-3166-1">FR</tef:nationalite>
<tef:autoriteExterne autoriteSource="Sudoc">181788446</tef:autoriteExterne>
<tef:autoriteExterne autoriteSource="CODE_ETUDIANT">50714557</tef:autoriteExterne>
</tef:auteur>
<dc:identifier xsi:type="tef:nationalThesisPID">https://theses.fr/2013STRAC041</dc:identifier>
<dc:identifier xsi:type="tef:NNT">2013STRAC041</dc:identifier>
<dc:identifier xsi:type="tef:DOI">https://doi.org/10.70675/326cc83cz0d3bz4e7dzbba6z6aef0e03221d</dc:identifier>
<dcterms:dateAccepted xsi:type="dcterms:W3CDTF">2013-12-12</dcterms:dateAccepted>
<tef:thesis.degree>
<tef:thesis.degree.discipline xml:lang="fr">Sciences du langage</tef:thesis.degree.discipline>
<tef:thesis.degree.grantor>
<tef:nom>Strasbourg</tef:nom>
<tef:autoriteExterne autoriteSource="Sudoc">131056549</tef:autoriteExterne>
</tef:thesis.degree.grantor>
<tef:thesis.degree.level>Doctorat</tef:thesis.degree.level>
<tef:thesis.degree.name xml:lang="fr">Docteur es</tef:thesis.degree.name>
</tef:thesis.degree>
<tef:theseSurTravaux>non</tef:theseSurTravaux>
<tef:avisJury>oui</tef:avisJury>
<tef:directeurThese>
<tef:nom>Schnedecker</tef:nom>
<tef:prenom>Catherine</tef:prenom>
<tef:autoriteInterne>MADS_DIRECTEUR_DE_THESE_1</tef:autoriteInterne>
<tef:autoriteExterne autoriteSource="Sudoc">035496126</tef:autoriteExterne>
</tef:directeurThese>
<tef:directeurThese>
<tef:nom>Todiraşcu-Courtier</tef:nom>
<tef:prenom>Amalia</tef:prenom>
<tef:autoriteInterne>MADS_DIRECTEUR_DE_THESE_2</tef:autoriteInterne>
<tef:autoriteExterne autoriteSource="Sudoc">130431796</tef:autoriteExterne>
</tef:directeurThese>
<tef:presidentJury>
<tef:nom>Tutin</tef:nom>
<tef:prenom>Agnès</tef:prenom>
<tef:autoriteInterne>MADS_PRESIDENT_DU_JURY</tef:autoriteInterne>
<tef:autoriteExterne autoriteSource="Sudoc">059803150</tef:autoriteExterne>
</tef:presidentJury>
<tef:membreJury>
<tef:nom>Landragin</tef:nom>
<tef:prenom>Frédéric</tef:prenom>
<tef:autoriteInterne>MADS_MEMBRE_DU_JURY_1</tef:autoriteInterne>
<tef:autoriteExterne autoriteSource="Sudoc">071347321</tef:autoriteExterne>
</tef:membreJury>
<tef:rapporteur>
<tef:nom>Maurel</tef:nom>
<tef:prenom>Denis</tef:prenom>
<tef:autoriteInterne>MADS_RAPPORTEUR_1</tef:autoriteInterne>
<tef:autoriteExterne autoriteSource="Sudoc">058477446</tef:autoriteExterne>
</tef:rapporteur>
<tef:rapporteur>
<tef:nom>Bestgen</tef:nom>
<tef:prenom>Yves</tef:prenom>
<tef:autoriteInterne>MADS_RAPPORTEUR_2</tef:autoriteInterne>
<tef:autoriteExterne autoriteSource="Sudoc">03553625X</tef:autoriteExterne>
</tef:rapporteur>
<tef:ecoleDoctorale>
<tef:nom>École doctorale des Humanités (Strasbourg ; 2009-....)</tef:nom>
<tef:autoriteInterne>MADS_ECOLE_DOCTORALE_1</tef:autoriteInterne>
<tef:autoriteExterne autoriteSource="Annuaire des formations doctorales et des unités de recherche">HU</tef:autoriteExterne>
<tef:autoriteExterne autoriteSource="Sudoc">156498324</tef:autoriteExterne>
</tef:ecoleDoctorale>
<tef:partenaireRecherche type="laboratoire">
<tef:nom>Linguistique, langues, parole (Strasbourg)</tef:nom>
<tef:autoriteInterne>MADS_PARTENAIRE_DE_RECHERCHE_1</tef:autoriteInterne>
<tef:autoriteExterne autoriteSource="Annuaire des formations doctorales et des unités de recherche">EA 1339</tef:autoriteExterne>
<tef:autoriteExterne autoriteSource="Sudoc">115060448</tef:autoriteExterne>
<tef:autoriteExterne autoriteSource="labTEL">93810</tef:autoriteExterne>
</tef:partenaireRecherche>
<tef:oaiSetSpec>ddc:400</tef:oaiSetSpec>
<tef:oaiSetSpec>ddc:004</tef:oaiSetSpec>
<tef:MADSAuthority authorityID="MADS_DIRECTEUR_DE_THESE_1" type="personal">
<tef:personMADS>
<mads:namePart type="family">Schnedecker</mads:namePart>
<mads:namePart type="given">Catherine</mads:namePart>
</tef:personMADS>
</tef:MADSAuthority>
<tef:MADSAuthority authorityID="MADS_DIRECTEUR_DE_THESE_2" type="personal">
<tef:personMADS>
<mads:namePart type="family">Todiraşcu-Courtier</mads:namePart>
<mads:namePart type="given">Amalia</mads:namePart>
</tef:personMADS>
</tef:MADSAuthority>
<tef:MADSAuthority authorityID="MADS_PRESIDENT_DU_JURY" type="personal">
<tef:personMADS>
<mads:namePart type="family">Tutin</mads:namePart>
<mads:namePart type="given">Agnès</mads:namePart>
</tef:personMADS>
</tef:MADSAuthority>
<tef:MADSAuthority authorityID="MADS_MEMBRE_DU_JURY_1" type="personal">
<tef:personMADS>
<mads:namePart type="family">Landragin</mads:namePart>
<mads:namePart type="given">Frédéric</mads:namePart>
</tef:personMADS>
</tef:MADSAuthority>
<tef:MADSAuthority authorityID="MADS_RAPPORTEUR_1" type="personal">
<tef:personMADS>
<mads:namePart type="family">Maurel</mads:namePart>
<mads:namePart type="given">Denis</mads:namePart>
</tef:personMADS>
</tef:MADSAuthority>
<tef:MADSAuthority authorityID="MADS_RAPPORTEUR_2" type="personal">
<tef:personMADS>
<mads:namePart type="family">Bestgen</mads:namePart>
<mads:namePart type="given">Yves</mads:namePart>
</tef:personMADS>
</tef:MADSAuthority>
<tef:MADSAuthority authorityID="MADS_ECOLE_DOCTORALE_1" type="corporate">
<tef:personMADS>
<mads:namePart type="family">École doctorale Humanités (Strasbourg ; 2009-....)</mads:namePart>
</tef:personMADS>
</tef:MADSAuthority>
<tef:MADSAuthority authorityID="MADS_PARTENAIRE_DE_RECHERCHE_1" type="corporate">
<tef:personMADS>
<mads:namePart type="family">Linguistique, langues, parole (Strasbourg)</mads:namePart>
</tef:personMADS>
</tef:MADSAuthority>
</tef:thesisAdmin>
</mets:xmlData>
</mets:mdWrap>
</mets:techMD>
<mets:techMD ID="ABES.STAR.THESE_40141.VERSION_COMPLETE.EDITION_ARCHIVAGE.TECH_FICHIER.DOSSIER_1.DOSSIER_1.FICHIER_1">
<mets:mdWrap MDTYPE="OTHER" OTHERMDTYPE="tef_tech_fichier">
<mets:xmlData>
<tef:meta_fichier>
<tef:formatFichier>PDF</tef:formatFichier>
<tef:taille>3529370</tef:taille>
</tef:meta_fichier>
</mets:xmlData>
</mets:mdWrap>
</mets:techMD>
<mets:rightsMD ID="ABES.STAR.THESE_40141.DROITS_UNIVERSITE">
<mets:mdWrap MDTYPE="OTHER" OTHERMDTYPE="tef_droits_etablissement_these">
<mets:xmlData>
<metsRights:RightsDeclarationMD RIGHTSCATEGORY="CONTRACTUAL">
<metsRights:Context CONTEXTCLASS="GENERAL PUBLIC">
<metsRights:Permissions COPY="false" DELETE="false" DISPLAY="true" DUPLICATE="true" MODIFY="false" PRINT="false"/>
</metsRights:Context>
<metsRights:Context CONTEXTCLASS="INSTITUTIONAL AFFILIATE">
<metsRights:Permissions COPY="false" DELETE="false" DISPLAY="true" DUPLICATE="true" MODIFY="false" PRINT="false"/>
</metsRights:Context>
</metsRights:RightsDeclarationMD>
</mets:xmlData>
</mets:mdWrap>
</mets:rightsMD>
<mets:rightsMD ID="ABES.STAR.THESE_40141.DROITS_DOCTORANT">
<mets:mdWrap MDTYPE="OTHER" OTHERMDTYPE="tef_droits_auteur_these">
<mets:xmlData>
<metsRights:RightsDeclarationMD RIGHTSCATEGORY="CONTRACTUAL">
<metsRights:Context CONTEXTCLASS="GENERAL PUBLIC">
<metsRights:Permissions COPY="false" DELETE="false" DISPLAY="false" DUPLICATE="false" MODIFY="false" PRINT="false"/>
</metsRights:Context>
<metsRights:Context CONTEXTCLASS="INSTITUTIONAL AFFILIATE">
<metsRights:Permissions COPY="false" DELETE="false" DISPLAY="true" DUPLICATE="true" MODIFY="false" PRINT="false"/>
</metsRights:Context>
</metsRights:RightsDeclarationMD>
</mets:xmlData>
</mets:mdWrap>
</mets:rightsMD>
<mets:rightsMD ID="ABES.STAR.THESE_40141.VERSION_COMPLETE.DROITS">
<mets:mdWrap MDTYPE="OTHER" OTHERMDTYPE="tef_droits_version">
<mets:xmlData>
<metsRights:RightsDeclarationMD RIGHTSCATEGORY="CONTRACTUAL">
<metsRights:Context CONTEXTCLASS="GENERAL PUBLIC">
<metsRights:Permissions COPY="false" DELETE="false" DISPLAY="false" DUPLICATE="false" MODIFY="false" PRINT="false"/>
</metsRights:Context>
<metsRights:Context CONTEXTCLASS="INSTITUTIONAL AFFILIATE">
<metsRights:Permissions COPY="false" DELETE="false" DISPLAY="true" DUPLICATE="true" MODIFY="false" PRINT="false"/>
</metsRights:Context>
</metsRights:RightsDeclarationMD>
</mets:xmlData>
</mets:mdWrap>
</mets:rightsMD>
</mets:amdSec>
<mets:fileSec>
<mets:fileGrp ID="ABES.STAR.THESE_40141.VERSION_COMPLETE.EDITION_ARCHIVAGE.FILEGRP" USE="archive">
<mets:file ADMID="ABES.STAR.THESE_40141.VERSION_COMPLETE.EDITION_ARCHIVAGE.TECH_FICHIER.DOSSIER_1.DOSSIER_1.FICHIER_1" ID="ABES.STAR.THESE_40141.VERSION_COMPLETE.EDITION_ARCHIVAGE.DOSSIER_1.DOSSIER_1.FICHIER_1" SEQ="1">
<mets:FLocat LOCTYPE="URL" xlink:href="STRA/THESE_40141/document/0/0/Longo_laurence_2013_ED520_A.pdf"/>
</mets:file>
</mets:fileGrp>
</mets:fileSec>
<mets:structMap TYPE="logical">
<mets:div ADMID="ABES.STAR.THESE_40141.ADMINISTRATION ABES.STAR.THESE_40141.DROITS_UNIVERSITE ABES.STAR.THESE_40141.DROITS_DOCTORANT" CONTENTIDS="CONTENTIDS.ABES.STAR.THESE_40141" DMDID="ABES.STAR.THESE_40141.DESCRIPTION_BIBLIOGRAPHIQUE" TYPE="THESE">
<mets:div ADMID="ABES.STAR.THESE_40141.VERSION_COMPLETE.DROITS" CONTENTIDS="CONTENTIDS.ABES.STAR.THESE_40141.ABES.STAR.THESE_40141.VERSION_COMPLETE" TYPE="VERSION_COMPLETE">
<mets:div CONTENTIDS="CONTENTIDS.ABES.STAR.THESE_40141.VERSION_COMPLETE.EDITION_ARCHIVAGE" DMDID="ABES.STAR.THESE_40141.VERSION_COMPLETE.DESCRIPTION.EDITION_ARCHIVAGE" TYPE="EDITION">
<mets:fptr FILEID="ABES.STAR.THESE_40141.VERSION_COMPLETE.EDITION_ARCHIVAGE.FILEGRP"/>
</mets:div>
<mets:div CONTENTIDS="CONTENTIDS.ABES.STAR.THESE_40141.VERSION_COMPLETE.EDITION_1" DMDID="ABES.STAR.THESE_40141.VERSION_COMPLETE.DESCRIPTION.EDITION_1" TYPE="EDITION"/>
</mets:div>
</mets:div>
</mets:structMap>
</mets:mets>