A new hybrid record linkage process to make epidemiological databases interoperable: application to the GEMO and GENEPSO studies involving BRCA1 and BRCA2 mutation carriers - Bio-informatique (CBIO) Accéder directement au contenu
Article Dans Une Revue BMC Medical Research Methodology Année : 2021

A new hybrid record linkage process to make epidemiological databases interoperable: application to the GEMO and GENEPSO studies involving BRCA1 and BRCA2 mutation carriers

Yue Jiao (1, 2, 3, 4) , Fabienne Lesueur (3, 4, 1, 2) , Chloé-Agathe Azencott (3, 4, 2, 5) , Maïté Laurent (1, 2) , Noura Mebirouk (3, 4, 1, 2) , Lilian Laborde (6, 7, 8) , Juana Beauvallet (3, 4, 1, 2) , Marie-Gabrielle Dondon (3, 4, 1, 2) , Séverine Eon-Marchais (3, 4, 1, 2) , Anthony Laugé (1, 2) , Catherine C. Noguès (6, 7, 8, 9, 10) , Nadine Andrieu (3, 4, 1, 2) , Dominique Stoppa-Lyonnet (1, 2, 11, 7) , Sandrine M Caputo (1, 2) , Nadia Boutry-Kryza , Alain Calender , Sophie Giraud , Mélanie Léone , Brigitte Bressac- de Paillerets , Olivier Caron , Marine Guillaud-Bataille , Yves-Jean Bignon , Nancy Uhrhammer , Valérie Bonadona , Christine Lasset , Pascaline Berthet , Laurent Castera , Dominique Vaur , Violaine Bourdon , Tetsuro Noguchi , Cornel Popovici , Audrey Remenieras , Hagay Sobol , Isabelle Coupier , Pierre-Olivier Harmand , Pascal Pujol (12, 13) , Paul Vilquin , Aurélie Dumont , Françoise Révillion , Danièle Muller , Emmanuelle Barouk-Simonet , Françoise Bonnet , Virginie Bubien , Michel Longy , Nicolas Sevenet , Laurence Gladieff , Rosine Guimbaud , Viviane Feillel , Christine Toulas , Hélène Dreyfus , Dominique Leroux , Magalie Peysselon , Christine Rebischung , Amandine Baurand , Geoffrey Bertolone , Fanny Coron , Laurence Faivre , Vincent Goussot , Caroline Jacquot , Caroline Sawka , Caroline Kientz , Marine Lebrun , Fabienne Prieur , Sandra Fert-Ferrer , Véronique Mari , Laurence Venat-Bouvet , Stéphane Bézieau , Capucine Delnatte , Isabelle Mortemousque , Florence Coulet , Florent Soubrier , Mathilde Warcoin , Myriam Bronner , Sarab Lizard , Johanna Sokolowska , Marie-Agnès Collonge-Rame , Alexandre Damette , Paul Gesta , Hakima Lallaoui , Jean Chiesa , Denise Molina-Gomes , Olivier Ingster , Sylvie Manouvrier-Hanu , Sophie Lejeune , Pauline Pontois , Dominique Stoppa Lyonnet , Marion Gauthier-Villars , Bruno Buecher , Emmanuelle Mouret-Fourme , Jean-Pierre Fricker , Elisabeth Luporsi , Marc Frenay , Francois Eisinger , Jessica Moretta , Catherine Dugast , Chrystelle Colas , Alain Lortholary , Philippe Vennin , Claude Adenis , Tan Dat Nguyen , Annick Rossi , Julie Tinat , Isabelle Tennevet , Jean-Marc Limacher , Christine Maugard , Jean-Yves Bignon , Liliane Demange , Odile Cohen-Haguenauer , Brigitte Gilbert , Hélène Zattara-Cannoni
Nadia Boutry-Kryza
  • Fonction : Auteur
  • PersonId : 920650
Alain Calender
  • Fonction : Auteur
  • PersonId : 1029278
Sophie Giraud
  • Fonction : Auteur
Mélanie Léone
  • Fonction : Auteur
Brigitte Bressac- de Paillerets
  • Fonction : Auteur
  • PersonId : 907568
Olivier Caron
Marine Guillaud-Bataille
  • Fonction : Auteur
  • PersonId : 1118853
Yves-Jean Bignon
  • Fonction : Auteur
  • PersonId : 1025776
Nancy Uhrhammer
  • Fonction : Auteur
Valérie Bonadona
  • Fonction : Auteur
  • PersonId : 912531
Christine Lasset
  • Fonction : Auteur
  • PersonId : 934726
Pascaline Berthet
  • Fonction : Auteur
  • PersonId : 920652
Laurent Castera
  • Fonction : Auteur
  • PersonId : 843162
Dominique Vaur
  • Fonction : Auteur
Violaine Bourdon
  • Fonction : Auteur
  • PersonId : 889847
Tetsuro Noguchi
  • Fonction : Auteur
  • PersonId : 889844
Cornel Popovici
  • Fonction : Auteur
  • PersonId : 937912
Audrey Remenieras
  • Fonction : Auteur
  • PersonId : 907525
Hagay Sobol
  • Fonction : Auteur
  • PersonId : 889850
Isabelle Coupier
  • Fonction : Auteur
  • PersonId : 907537
Pierre-Olivier Harmand
  • Fonction : Auteur
Paul Vilquin
  • Fonction : Auteur
  • PersonId : 1101728
Aurélie Dumont
  • Fonction : Auteur
Françoise Révillion
  • Fonction : Auteur
Danièle Muller
  • Fonction : Auteur
  • PersonId : 910038
Emmanuelle Barouk-Simonet
  • Fonction : Auteur
Françoise Bonnet
  • Fonction : Auteur
Virginie Bubien
  • Fonction : Auteur
Michel Longy
  • Fonction : Auteur
  • PersonId : 918895
Nicolas Sevenet
  • Fonction : Auteur
  • PersonId : 918893
Laurence Gladieff
  • Fonction : Auteur
  • PersonId : 898524
Rosine Guimbaud
  • Fonction : Auteur
  • PersonId : 955028
Viviane Feillel
  • Fonction : Auteur
Christine Toulas
  • Fonction : Auteur
  • PersonId : 882413
Hélène Dreyfus
  • Fonction : Auteur
  • PersonId : 912530
Dominique Leroux
  • Fonction : Auteur
  • PersonId : 907545
Magalie Peysselon
  • Fonction : Auteur
Christine Rebischung
  • Fonction : Auteur
Amandine Baurand
  • Fonction : Auteur
Geoffrey Bertolone
  • Fonction : Auteur
Fanny Coron
  • Fonction : Auteur
Laurence Faivre
  • Fonction : Auteur
  • PersonId : 856301
Vincent Goussot
  • Fonction : Auteur
Caroline Jacquot
  • Fonction : Auteur
Caroline Sawka
  • Fonction : Auteur
  • PersonId : 1073951
Caroline Kientz
  • Fonction : Auteur
  • PersonId : 920654
Marine Lebrun
  • Fonction : Auteur
  • PersonId : 1044965
Fabienne Prieur
  • Fonction : Auteur
  • PersonId : 922702
Sandra Fert-Ferrer
  • Fonction : Auteur
Véronique Mari
  • Fonction : Auteur
Laurence Venat-Bouvet
  • Fonction : Auteur
  • PersonId : 925269
Stéphane Bézieau
  • Fonction : Auteur
  • PersonId : 940317
Capucine Delnatte
  • Fonction : Auteur
  • PersonId : 910040
Isabelle Mortemousque
  • Fonction : Auteur
  • PersonId : 907551
Florence Coulet
  • Fonction : Auteur
  • PersonId : 920132
Florent Soubrier
  • Fonction : Auteur
  • PersonId : 945017
Mathilde Warcoin
  • Fonction : Auteur
Myriam Bronner
  • Fonction : Auteur
Sarab Lizard
  • Fonction : Auteur
Johanna Sokolowska
  • Fonction : Auteur
Marie-Agnès Collonge-Rame
  • Fonction : Auteur
  • PersonId : 909941
Alexandre Damette
  • Fonction : Auteur
Paul Gesta
  • Fonction : Auteur
  • PersonId : 912528
Hakima Lallaoui
  • Fonction : Auteur
Jean Chiesa
  • Fonction : Auteur
Denise Molina-Gomes
  • Fonction : Auteur
Olivier Ingster
  • Fonction : Auteur
Sylvie Manouvrier-Hanu
  • Fonction : Auteur
Sophie Lejeune
  • Fonction : Auteur
Pauline Pontois
  • Fonction : Auteur
Dominique Stoppa Lyonnet
  • Fonction : Auteur
Marion Gauthier-Villars
  • Fonction : Auteur
  • PersonId : 907333
Bruno Buecher
  • Fonction : Auteur
  • PersonId : 907332
Emmanuelle Mouret-Fourme
  • Fonction : Auteur
  • PersonId : 928988
Jean-Pierre Fricker
  • Fonction : Auteur
  • PersonId : 910039
Elisabeth Luporsi
  • Fonction : Auteur
  • PersonId : 928990
Marc Frenay
  • Fonction : Auteur
  • PersonId : 912527
Francois Eisinger
  • Fonction : Auteur
  • PersonId : 912525
Jessica Moretta
  • Fonction : Auteur
Catherine Dugast
  • Fonction : Auteur
  • PersonId : 907540
Chrystelle Colas
  • Fonction : Auteur
  • PersonId : 928992
Alain Lortholary
  • Fonction : Auteur
  • PersonId : 928991
Philippe Vennin
  • Fonction : Auteur
  • PersonId : 909939
Claude Adenis
  • Fonction : Auteur
Tan Dat Nguyen
  • Fonction : Auteur
Annick Rossi
  • Fonction : Auteur
Julie Tinat
  • Fonction : Auteur
Isabelle Tennevet
  • Fonction : Auteur
Jean-Marc Limacher
  • Fonction : Auteur
Christine Maugard
  • Fonction : Auteur
  • PersonId : 907549
Jean-Yves Bignon
  • Fonction : Auteur
Liliane Demange
  • Fonction : Auteur
  • PersonId : 912529
Odile Cohen-Haguenauer
  • Fonction : Auteur
  • PersonId : 1080689
Brigitte Gilbert
  • Fonction : Auteur
Hélène Zattara-Cannoni
  • Fonction : Auteur

Résumé

Background: Linking independent sources of data describing the same individuals enable innovative epidemiological and health studies but require a robust record linkage approach. We describe a hybrid record linkage process to link databases from two independent ongoing French national studies, GEMO (Genetic Modifiers of BRCA1 and BRCA2), which focuses on the identification of genetic factors modifying cancer risk of BRCA1 and BRCA2 mutation carriers, and GENEPSO (prospective cohort of BRCAx mutation carriers), which focuses on environmental and lifestyle risk factors. Methods: To identify as many as possible of the individuals participating in the two studies but not registered by a shared identifier, we combined probabilistic record linkage (PRL) and supervised machine learning (ML). This approach (named "PRL + ML") combined together the candidate matches identified by both approaches. We built the ML model using the gold standard on a first version of the two databases as a training dataset. This gold standard was obtained from PRL-derived matches verified by an exhaustive manual review. Results The Random Forest (RF) algorithm showed a highest recall (0.985) among six widely used ML algorithms: RF, Bagged trees, AdaBoost, Support Vector Machine, Neural Network. Therefore, RF was selected to build the ML model since our goal was to identify the maximum number of true matches. Our combined linkage PRL + ML showed a higher recall (range 0.988-0.992) than either PRL (range 0.916-0.991) or ML (0.981) alone. It identified 1995 individuals participating in both GEMO (6375 participants) and GENEPSO (4925 participants). Conclusions: Our hybrid linkage process represents an efficient tool for linking GEMO and GENEPSO. It may be generalizable to other epidemiological studies involving other databases and registries.
Fichier principal
Vignette du fichier
s12874-021-01299-6.pdf (761.64 Ko) Télécharger le fichier
Origine : Fichiers éditeurs autorisés sur une archive ouverte

Dates et versions

inserm-03313811 , version 1 (04-08-2021)

Licence

Paternité

Identifiants

Citer

Yue Jiao, Fabienne Lesueur, Chloé-Agathe Azencott, Maïté Laurent, Noura Mebirouk, et al.. A new hybrid record linkage process to make epidemiological databases interoperable: application to the GEMO and GENEPSO studies involving BRCA1 and BRCA2 mutation carriers. BMC Medical Research Methodology, 2021, 21 (1), pp.155. ⟨10.1186/s12874-021-01299-6⟩. ⟨inserm-03313811⟩
192 Consultations
116 Téléchargements

Altmetric

Partager

Gmail Facebook X LinkedIn More