Utilisation de ressources lexicales et terminologiques en traduction neuronale - Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur Accéder directement au contenu
Rapport (Rapport De Recherche) Année : 2020

Using lexical and terminological resources in neural machine translation

Utilisation de ressources lexicales et terminologiques en traduction neuronale

François Yvon
Sadaf Abdul Rauf
  • Fonction : Auteur
  • PersonId : 766890
  • IdRef : 164057293

Résumé

Neural machine translation (MT) has led to a clear improvement in translation quality, increasing the usability of the automatically translated texts in a variety of contexts. This technology is based on the use of black-box algorithms, which makes it difficult to control the translation process. In particular, while the previous generation of (statistical) translation models were easily completed with dictionary or terminological resources, the hybridization of neural MT with dictionary or rule-based methods is much more challenging. This is sometimes experienced as a step backwards, especially in computer-assisted translation (CAT) or post-editing (PE) contexts, or in contexts or domains for which parallel data is scarce. In this report, we develop a critical review of recent attempts to integrate bilingual lexicons into neural MT, and find that most of them can be interpreted as ways to adapt older methods to the neural MT framework. We also discuss various avenues that remain to be explored to make this hybridization of MT more predictable and transparent.
La traduction automatique (TA) neuronale a conduit à une amélioration perceptible de la qualité de traduction et de l'utilisabilité des textes ainsi produits dans un nombre varié de contextes. Cette technologie repose sur l'exploitation d'algorithmes qui fonctionnent en boite noire, ce qui rend difficile le contrôle fin du processus de traduction. En particulier, alors que la génération antérieure de modèles de traduction (statistique) permettait assez directement d'injecter des ressources dictionnairiques ou terminologiques, l'hybridation de la TA neuronale par des méthodes à base de dictionnaires ou de règles s'avère plus délicate. Ceci est parfois vécu comme une régression, en particulier dans des contextes de traduction assistée par ordinateur (TAO) ou de post-édition (PE), ou encore dans les contextes ou domaines pour lesquels il existe peu de données parallèles. Dans ce rapport, nous proposons une revue critique des tentatives récentes pour intégrer des lexiques bilingues en TA neuronales, pour constater que la plupart peuvent s'interpréter comme des essais pour adapter au cadre de la TA neuronale des méthodes anciennes. Nous discutons également diverses pistes qui restent à explorer pour rendre cette hybridation de la TA plus prédictible et plus transparente.
Fichier principal
Vignette du fichier
d2-1.pdf (1 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

hal-02895535 , version 1 (09-07-2020)
hal-02895535 , version 2 (21-08-2020)
hal-02895535 , version 3 (28-12-2020)
hal-02895535 , version 4 (20-01-2022)

Identifiants

  • HAL Id : hal-02895535 , version 2

Citer

François Yvon, Sadaf Abdul Rauf. Utilisation de ressources lexicales et terminologiques en traduction neuronale. [Rapport de recherche] 2020-001, LIMSI-CNRS. 2020, 56 p. ⟨hal-02895535v2⟩
409 Consultations
527 Téléchargements

Partager

Gmail Facebook X LinkedIn More