Actualités

Octopize et le Health Data Hub et s’associent sur la génération de données synthétiques

20 mai 2022

Octopize-Mimethik Data et le Health Data Hub et lancent ce mois-ci une collaboration pour la création d’un tutoriel qui permettra d’explorer de manière interactive et pédagogique différentes approches à la génération de données synthétiques en santé. Prenant la forme d’un notebook Python, ce tutoriel présentera les grands enjeux associés à cette problématique, ainsi que les avantages et inconvénients de différentes méthodes permettant de générer de telles données. Le notebook sera publié en open source une fois finalisé, au troisième trimestre 2022.

Une collaboration pour mieux appréhender les données synthétiques

Cette collaboration permet à deux approches existantes de la génération de données synthétiques représentatives des données source de se rencontrer pour créer un tutoriel commun et pédagogique sur le sujet. Le Health Data Hub a développé et publié en open source un générateur de données fictives respectant la structure formelle d’une base de données de santé, en se basant uniquement sur le schéma de la base source. La société Octopize-Mimethik data a, quant à elle, développé une solution dite d’Avatarisation permettant de générer, à partir des données sources, des profils fictifs (les Avatars) qui “conservent la qualité et la structure des données originales”. La collaboration ambitionne de diffuser la connaissance sur les nouvelles approches de données synthétiques et accélérer leurs usages au profit de la recherche médicale.

L’utilisation des données synthétiques

Le respect de la confidentialité est un enjeu majeur du traitement des données de santé, du fait de leur sensibilité. Mesures de sécurité techniques et organisationnelles, pseudonymisation, anonymisation des résultats font généralement partie de l’arsenal déployé pour le traitement sécurisé de ces données source à des fins de recherche.

Ce tutoriel permettra d’explorer une toute autre approche pour garantir le respect de la confidentialité des données sensibles : utiliser des données synthétiques. Générées de manière à ne présenter aucun risque pour la vie privée- puisqu’elles ne sont associées à aucune personne réelle- tout en maintenant la valeur informative des données originales sur certains aspects cruciaux, ces données synthétiques permettent de décupler les usages des données de santé.

Grâce à leur collaboration, Octopize et le Health Data Hub donneront ainsi à la communauté les clefs de compréhension de la génération de données de synthèse et de leur potentiel de réutilisation. Formation, estimations de faisabilité, appréhension de jeux de données complexes, voire réalisation d’études complètes avec des résultats statistiquement équivalents : les données de synthèse constituent une voie prometteuse pour accélérer le développement des projets de recherche par la valorisation des données de santé.

TÉLÉCHARGER LE COMMUNIQUÉ DE PRESSE