Extraction d'informations de messages aéronautiques (NOTAMs) avec des modèles de langue appris de façon auto-supervisée

Alexandre Arnold; Fares Ernez; Catherine Kobus; Marion-Cécile Martin

Communication Dans Un Congrès Année : 2022

Extraction d'informations de messages aéronautiques (NOTAMs) avec des modèles de langue appris de façon auto-supervisée

(1) , (1) , (1) , (1)

Alexandre Arnold

Fonction : Auteur
PersonId : 1144147

Airbus [France]

Fares Ernez

Fonction : Auteur

Airbus [France]

Catherine Kobus

Fonction : Auteur

Airbus [France]

Marion-Cécile Martin

Fonction : Auteur

Airbus [France]

Résumé

Avant un vol, les pilotes de ligne doivent lire une longue liste de messages appelés NOTAM (pour NOtice To AirMen) donnant des informations sur des aléas potentiels le long du vol. Ces messages suivent une grammaire particulière, contiennent beaucoup d’acronymes et un vocabulaire spécifique aéronautique. Dans cet article, un modèle de langue de type BERT est pré-entraîné sur un grand nombre de ces messages ; il est ensuite affiné sur trois tâches : l’estimation de criticité, la reconnaissance d’entités nommées et la traduction vers un langage structuré appelé Airlang. L’apprentissage auto-supervisé, permettant de tirer parti du vaste nombre de données non annotées, est particulièrement intéressant dans le domaine aéronautique, pour lequel les annotations sont très coûteuses car nécessitant une forte expertise. Nous montrons les résultats encourageants sur les trois tâches.

Mots clés

NOTAM Apprentissage auto-supervisé Classification REN Traduction.

Domaines

Informatique et langage [cs.CL]

Fichier principal

6576.pdf (231.41 Ko)

Origine : Fichiers éditeurs autorisés sur une archive ouverte

Yannick Parmentier : Connectez-vous pour contacter le contributeur

https://hal.science/hal-03701509

Soumis le : vendredi 24 juin 2022-16:42:26

Dernière modification le : jeudi 7 juillet 2022-05:41:53

Archivage à long terme le : dimanche 25 septembre 2022-21:37:44

Dates et versions

hal-03701509 , version 1 (24-06-2022)

Identifiants

HAL Id : hal-03701509 , version 1

Citer

Alexandre Arnold, Fares Ernez, Catherine Kobus, Marion-Cécile Martin. Extraction d'informations de messages aéronautiques (NOTAMs) avec des modèles de langue appris de façon auto-supervisée. Traitement Automatique des Langues Naturelles (TALN 2022), Jun 2022, Avignon, France. pp.335-344. ⟨hal-03701509⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

TALN-RECITAL TALN-RECITAL2022

106 Consultations

26 Téléchargements

Extraction d'informations de messages aéronautiques (NOTAMs) avec des modèles de langue appris de façon auto-supervisée

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager