Simulation d’erreurs d’OCR dans les systèmes de TAL pour le traitement de données anachroniques - Conférences TALN RECITAL Accéder directement au contenu
Communication Dans Un Congrès Année : 2022

Simulation d’erreurs d’OCR dans les systèmes de TAL pour le traitement de données anachroniques

Résumé

L’extraction d’information offre de nouvelles perspectives au sein des recherches historiques. Cependant, la majorité des recherches liées à ce domaine s’effectue sur des données contemporaines. Malgré l’évolution constante des systèmes d’OCR, les textes historiques résultant de ce procédé contiennent toujours de multiples erreurs. Du fait d’un manque de ressources historiques dédiées au TAL, le traitement de ce domaine reste dépendant de l’utilisation de ressources contemporaines. De nombreuses études ont démontré l’impact négatif que pouvaient avoir les erreurs d’OCR sur les systèmes prêts à l’emploi contemporains. Mais l’évaluation des nouvelles architectures, proposant des résultats prometteurs sur des données récentes, face à ce problème reste encore très minime. Dans cette étude, nous quantifions l’impact des erreurs d’OCR sur trois tâches d’extraction d’information en utilisant plusieurs architectures de type Transformers. Au vu de ces résultats, nous proposons une approche permettant de réduire de plus de 50% cet impact sans avoir recours à des ressources historiques spécialisées.
Fichier principal
Vignette du fichier
5542.pdf (158.6 Ko) Télécharger le fichier
Origine : Fichiers éditeurs autorisés sur une archive ouverte

Dates et versions

hal-03701471 , version 1 (24-06-2022)

Identifiants

  • HAL Id : hal-03701471 , version 1

Citer

Baptiste Blouin, Benoit Favre, Jeremy Auguste. Simulation d’erreurs d’OCR dans les systèmes de TAL pour le traitement de données anachroniques. Traitement Automatique des Langues Naturelles, 2022, Avignon, France. pp.78-87. ⟨hal-03701471⟩
91 Consultations
41 Téléchargements

Partager

Gmail Facebook X LinkedIn More