Effervescence
Mamadou Mbodj
Candidat à la maîtrise
Faculté des sciences et de génie
Université Laval
Il est souvent difficile de partager des données dénominalisées entre différentes organisations et chercheurs en raison de contraintes éthiques liées à la confidentialité des répondants. C'est une réalité fréquente dans le domaine de la santé, étant donné la sensibilité inhérente de ce type de données. Une option dans ce cas est de ne pas partager directement les données, mais plutôt de donner accès à celles-ci via un outil qui contrôle le risque de divulgation des requêtes effectuées et permet seulement celles qu'il considère sécuritaires. DataSHIELD est un tel outil qui a été proposé pour protéger la confidentialité d'un jeu de données, et qui s'utilise via le logiciel statistique R. Il permet en outre de faire des analyses statistiques sur plusieurs jeux de données hébergés à des endroits différents, toujours en assurant la confidentialité des répondants. Dans ce projet, on s'intéresse aux garanties de confidentialité fournies par le logiciel, et aux limites de celui-ci. On étudie en particulier les possibilités d'analyses statistiques plus poussées pouvant être faites avec le logiciel, notamment par l'utilisation de méta-analyses et de réseaux de neurones.
Sandrine Blais-Deschênes
Candidate à la maîtrise
Faculté des sciences et de génie
Université Laval
L’interprétabilité de l’intelligence artificielle, c’est-à-dire la capacité d’un-e expert-e de comprendre pourquoi une décision a été rendue, est particulièrement importante dans les contextes d’analyse en santé. D’abord, car il est primordial de savoir pourquoi une décision est prise par un algorithme lorsque celle-ci a un impact sur la santé d’une personne. Ensuite, en recherche, ces types d’algorithmes sont très utiles, car ils dévoilent souvent des pistes d’investigations nouvelles.
L’objectif de cette étude est de combiner deux algorithmes d’apprentissage automatique supervisé dans le but d’en améliorer autant l’interprétabilité que la performance, notamment grâce aux outils de la logique mathématique. Le but de cette variante algorithmique est d’aider à une meilleure prédiction en augmentant légèrement la complexité du modèle tout en conservant ce haut niveau d’interprétabilité.
Cet algorithme est développé dans le but d’analyser des données larges (fat data), c’est-à-dire les données qui comportent beaucoup de caractéristiques (attributs), mais dont nous avons peu d’échantillons (observations). Ce type de données est très présent dans les données liées à la santé, notamment dans les cas de données génomiques, métagénomiques et métabolomiques qui sont l’état de l’art des analyses médicales. Plus précisément, nous nous intéressons aux problématiques de la résistance bactérienne aux antibiotiques et de la maladie à coronavirus (COVID-19) longue.
Les traitements de radiothérapie habituels répandus dans le domaine clinique ne font pas souvent l’objet de changements, se résumant généralement à un traitement global de 50 grays, fractionné en cinq traitements de deux grays par semaine durant cinq semaines.
Michèle Desjardins
Faculté des sciences et de génie
Université Laval
Alexandre Drouin
La métabolomique est une des façons d'étudier le métabolisme. La présence de certains métabolites, ou la dégradation de sentiers métaboliques peuvent servir d'indicateurs sur la santé d'un patient. Ils peuvent servir de marqueurs de certaines maladies comme des cancers, ou renseigner sur la qualité de la diète d'un individu. Les méthodes d'acquisition en métabolomique non ciblée produisent des matrices de données de grandes dimensions. Il s'agit de développer des méthodes d'apprentissage machine spécifiquement adaptées aux jeux de données de grande dimensions.
Corinne Chouinard
Stagiaire au premier cycle
Faculté des sciences et de génie
Université Laval
Les traitements de radiothérapie habituels répandus dans le domaine clinique ne font pas souvent l’objet de changements, se résumant généralement à un traitement global de 50 grays, fractionné en cinq traitements de deux grays par semaine durant cinq semaines.
C’est pourquoi il est intéressant de développer un outil basé uniquement sur des modèles mathématiques tirés de la littérature, capable de comparer les différents types de traitements possibles sans avoir à les tester sur de véritables tissus. Plusieurs paramètres viennent modifier la réponse de ces tissus après leur irradiation, notamment la pression partielle d’oxygène dans les régions irradiées, le type de particules envoyées sur le tissu ainsi que la durée des traitements et le temps entre chacun d’eux.
Le code Python créé dans le cadre de ce projet vise ainsi à faciliter l’optimisation des traitements de radiothérapie en générant des graphiques montrant la survie des cellules après un certain nombre de fractions, en tenant compte de plusieurs paramètres. Le code, lorsqu’il sera complété et fera partie d’une interface graphique, sera simple d’utilisation et servira aux projets de recherche qui seront en cours.
Il est souvent difficile de partager des données dénominalisées entre différentes organisations et chercheurs en raison de contraintes éthiques liées à la confidentialité des répondants. C'est une réalité fréquente dans le domaine de la santé, étant donné la sensibilité inhérente de ce type de données. Une option dans ce cas est de ne pas partager directement les données, mais plutôt de donner accès à celles-ci via un outil qui contrôle le risque de divulgation des requêtes effectuées et permet seulement celles qu'il considère sécuritaires.
Découvrir
Projet en vedette
Le cancer de la prostate est le deuxième cancer le plus fréquent et la cinquième cause de décès par cancer chez les hommes. Pour améliorer les résultats de santé des patients, le traitement doit être personnalisé en se basant sur un pronostic précis. Il existe déjà des nomogrammes permettant d’identifier les patients à faible risque de récidive sur la base d’informations cliniques préopératoires, mais ces outils n’utilisent pas les images médicales des patients.