Titulaires d'une chaire
Profil
Ihab Ilyas
David R. Cheriton School of Computer Science
University of Waterloo
Titre de la chaire
Chaire de recherche industrielle CRSNG Thomson Reuters en nettoyage de données
Programme de la chaire
Programme de professeurs-chercheurs industriels
Rôle
Titulaire principal depuis 2018
Sommaire
Les activités économiques et scientifiques reposent maintenant sur les données, comme c’est par exemple le cas pour la médecine fondée sur des données probantes, la prise de décisions (dont celles qui ont trait aux dépenses) dans les secteurs économiques qui s’appuient sur l’analyse de mégadonnées ainsi que l’infrastructure de la science des données qui est utilisée pour accélérer les découvertes en astronomie, en chimie et dans de nombreux autres domaines scientifiques. C’est pourquoi les entreprises de tous les secteurs ont recueilli des données auprès de diverses sources pour constituer une très grande base de données, souvent appelée un « lac de données », afin que les scientifiques de données puissent faire ressortir les informations intéressantes et réaliser des analyses qui faciliteront les activités. Cependant, en raison de la variété et de l’imperfection des méthodes de collecte et de l’intégration de données provenant de diverses sources dont les schémas, les unités et les langages sont différents, les jeux de données sont souvent « sales » (c’est-à-dire qu’ils contiennent des erreurs, des incohérences ou que certaines données sont manquantes) et ne peuvent être utilisés tels quels. Le nettoyage des données est considéré par les scientifiques de données comme la tâche qui requiert le plus de temps (selon un article du magazine Forbes paru en 2016), et constitue un obstacle majeur à l’efficacité de la science des données (New York Times, 2014). Les méthodes actuelles de nettoyage des données présentent des problèmes fondamentaux sur le plan pratique lorsqu’elles sont appliquées aux données polluées dans la vie réelle, ce qui fait en sorte qu’elles ne peuvent être mises en œuvre ainsi dans les entreprises. Le principal objectif du programme de recherche est de développer des technologies qui offriront à une vaste clientèle des solutions pouvant assurer la qualité des données et permettant d’extraire des données et de réaliser des analyses de grande qualité dans de très grandes bases de données où les données sont de mauvaise qualité ou incohérentes.
Ce programme est basé sur le solide engagement de la University of Waterloo et de Thomson Reuters envers la science des données et la recherche sur les mégadonnées et fait fond sur la réputation de calibre mondial et les innovations passées des deux parties en matière de données. Le titulaire de la chaire est un professeur titulaire depuis 2014 qui a une solide réputation internationale en gestion des données et qui est aussi reconnu à l’échelle mondiale comme l’un des principaux chefs de file de la recherche sur la qualité et le nettoyage des données. Il a également codéveloppé l’un des plus important produit dans le domaine de la qualité et de l’intégration des données sur le marché.
En ce qui concerne les applications commerciales, les technologies développées permettront aux grandes entreprises, dont Thomson Reuters, dans tous les secteurs économiques d’avoir accès aux données recueillies et d’en tirer parti. Quant aux applications scientifiques, les disciplines telles que l’astronomie, la chimie, l’imagerie scientifique et la recherche pharmaceutique se sont transformées au fil des ans et misent désormais sur la collecte de données massives (souvent sales et incomplètes) tirées de diverses sources. Les activités liées au nettoyage et à l’intégration des données proposées dans le programme de recherche auront une incidence directe, car elles permettront d’accélérer l’accès aux résultats de recherche et réduiront considérablement le cycle de vie de la science des données en améliorant la qualité et la valeur des données sous-jacentes.
Le programme proposé traite des difficultés qui pourraient nuire à l’atteinte des objectifs scientifiques et commerciaux, mais il met aussi à profit les résultats de nombreux travaux de recherche réalisés au cours des dix dernières années en exploration des règles de gestion, en intégration des données, en échange d’information et en gestion des données à grande échelle. Ces travaux contribueront donc d’une part à consolider les résultats précédents pour produire de nouvelles techniques qui seront adoptées et utilisées plus facilement. Ils permettront d’autre part de s’attaquer à de nouveaux problèmes qui ne sont souvent pas soulevés lorsque la recherche porte sur des scénarios de moins grande envergure. Le programme devrait produire des résultats novateurs quant à l’échelle de l’application, la diversité des données prises en compte et aux contraintes en matière de protection de la vie privée et de conformité.
Partenaire
- Thomson Reuters
Coordonnées
David R. Cheriton School of Computer Science
University of Waterloo
Site Web :
https://cs.uwaterloo.ca/~ilyas/