Construction d'un corpus multilingue annoté en relations de traduction - Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur Accéder directement au contenu
Communication Dans Un Congrès Année : 2018

Construction of a multilingual corpus annotated with translation relations

Construction d'un corpus multilingue annoté en relations de traduction

Résumé

Translation relations, which distinguish literal translation from other translation techniques, constitute an important subject of study for human translators (Chuquet & Paillard, 1989). However, automatic processing techniques based on interlingual relations, such as machine translation or paraphrase generation exploiting translation equivalence, have not exploited these relations explicitly until now. In this work, we present a categorisation of translation relations and annotate them in a parallel multilingual (English, French, Chinese) corpus of oral presentations, the TED Talks. Our long term objective will be to automatically detect these relations in order to integrate them as important characteristics for the search of monolingual segments in relation of equivalence (paraphrases) or of entailment. The annotated corpus resulting from our work will be made available to the community.
Les relations de traduction, qui distinguent la traduction littérale d'autres procédés, constituent un sujet d'étude important pour les traducteurs humains (Chuquet & Paillard, 1989). Or les traitements automatiques fondés sur des relations entre langues, tels que la traduction automatique ou la méthode de génération de paraphrases par équivalence de traduction, ne les ont pas exploitées explicitement jusqu'à présent. Dans ce travail, nous présentons une catégorisation des relations de traduction et nous les annotons dans un corpus parallèle multilingue (anglais, français, chinois) de présentations orales, les TED Talks. Notre objectif à plus long terme sera d'en faire la détection de manière automatique afin de pouvoir les intégrer comme caractéristiques importantes pour la recherche de segments monolingues en relation d'équivalence (paraphrases) ou d'implication. Le corpus annoté résultant de notre travail sera mis à disposition de la communauté.
Fichier principal
Vignette du fichier
Construction d'un corpus multilingue annoté en relations de traduction.pdf (978.69 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-01803762 , version 1 (30-05-2018)
hal-01803762 , version 2 (19-09-2018)

Identifiants

  • HAL Id : hal-01803762 , version 1

Citer

Yuming Zhai. Construction d'un corpus multilingue annoté en relations de traduction. Rencontre Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues, May 2018, Rennes, France. ⟨hal-01803762v1⟩
169 Consultations
165 Téléchargements

Partager

Gmail Facebook X LinkedIn More