L’interprétabilité de l’intelligence artificielle, c’est-à-dire la capacité d’un-e expert-e de comprendre pourquoi une décision a été rendue, est particulièrement importante dans les contextes d’analyse en santé. D’abord, car il est primordial de savoir pourquoi une décision est prise par un algorithme lorsque celle-ci a un impact sur la santé d’une personne. Ensuite, en recherche, ces types d’algorithmes sont très utiles, car ils dévoilent souvent des pistes d’investigations nouvelles.
L’objectif de cette étude est de combiner deux algorithmes d’apprentissage automatique supervisé dans le but d’en améliorer autant l’interprétabilité que la performance, notamment grâce aux outils de la logique mathématique. Le but de cette variante algorithmique est d’aider à une meilleure prédiction en augmentant légèrement la complexité du modèle tout en conservant ce haut niveau d’interprétabilité.
Cet algorithme est développé dans le but d’analyser des données larges (fat data), c’est-à-dire les données qui comportent beaucoup de caractéristiques (attributs), mais dont nous avons peu d’échantillons (observations). Ce type de données est très présent dans les données liées à la santé, notamment dans les cas de données génomiques, métagénomiques et métabolomiques qui sont l’état de l’art des analyses médicales. Plus précisément, nous nous intéressons aux problématiques de la résistance bactérienne aux antibiotiques et de la maladie à coronavirus (COVID-19) longue.