Skip to Main content Skip to Navigation
Conference papers

Un corpus annoté pour la génération de questions et l’extraction de réponses pour l’enseignement

Thomas Gerald 1, 2 Sofiane Ettayeb 1, 2 Ha Quang Le 3 Anne Vilnat 1, 2 Patrick Paroubek 1, 2 Gabriel Illouz 2 
2 ILES - Information, Langue Ecrite et Signée
LISN - Laboratoire Interdisciplinaire des Sciences du Numérique, STL - Sciences et Technologies des Langues
Résumé : Dans cette démonstration, nous présenterons les travaux en cours pour l’annotation d’un nouveau corpus de questions-réponses en langue Française. Contrairement aux corpus existant comme “FQuad” ou “Piaf”, nous nous intéressons à l’annotation de questions-réponses “non factuelles”. En effet, si dans la littérature, de nombreux corpus et modèles de questions-réponses pré-entraînés sont disponibles, ceux-ci ne privilégient que rarement les annotations s’appuyant sur un schéma de raisonnement issue de l’agrégation de différentes sources ou contextes. L’objectif du projet associé est de parvenir à la création d’un assistant virtuel pour l’éducation, ainsi des réponses explicatives, de raisonnement et/ou d’agrégation de l’information sont à privilégier. Notons enfin, que la volumétrie des données doit être conséquente, en particulier par la considération d’approches neuronales génératives ou extractives. Actuellement, nous disposons de 262 questions et réponses obtenues durant l’étape de validation de la campagne d’annotation. Une deuxième phase d’annotation avec une volumétrie plus importante débutera fin mai 2022 (environ 8000 questions).
Document type :
Conference papers
Complete list of metadata

https://hal.archives-ouvertes.fr/hal-03705849
Contributor : Yannick Parmentier Connect in order to contact the contributor
Submitted on : Monday, June 27, 2022 - 12:27:17 PM
Last modification on : Friday, August 5, 2022 - 9:27:31 AM
Long-term archiving on: : Thursday, September 29, 2022 - 5:11:50 PM

File

424.pdf
Publication funded by an institution

Identifiers

  • HAL Id : hal-03705849, version 1

Citation

Thomas Gerald, Sofiane Ettayeb, Ha Quang Le, Anne Vilnat, Patrick Paroubek, et al.. Un corpus annoté pour la génération de questions et l’extraction de réponses pour l’enseignement. Actes de la 29e Conférence sur le Traitement Automatique des Langues Naturelles. (TALN 2022) Volume 3 : Démonstrations, Jun 2022, Avignon, France. pp.15-17. ⟨hal-03705849⟩

Share

Metrics

Record views

44

Files downloads

2