Conseil de recherches en sciences naturelles et en génie du Canada
Symbol of the Government of Canada

Liens de la barre de menu commune

Ancienne lauréate
Prix d'études supérieures André-Hamer du CRSNG de 2006

Constance Adsett

Au niveau de la maîtrise

Dalhousie University


Constance Adsett
Constance Adsett

Les systèmes informatiques qui convertissent le texte écrit en paroles ont fait de grands progrès, mais ils butent encore sur les mots peu familiers. L'informaticienne Constance Adsett cherche à résoudre autant que possible ce problème en mettant au point les meilleurs outils pour décomposer automatiquement et correctement les mots en syllabes.

En décomposant avec exactitude les mots en syllabes, on peut grandement accroître la capacité des systèmes de synthèse de la parole à partir du texte de prononcer correctement les mots. Les travaux de maîtrise de Constance Adsett, qu'elle réalisera grâce à un Prix d'études supérieures André-Hamer du CRSNG, permettront de tester et de comparer le rendement des algorithmes existants de décomposition automatique des mots en syllabes. Elle travaillera avec son directeur de travaux de thèse, Yannick Marchand, à l'Institut du biodiagnostic du Conseil national de recherches du Canada, dans la région de l'Atlantique.

Les outils de décomposition des mots en syllabes se divisent en deux catégories : les outils « basés sur des règles » et les outils « axés sur les données ». Comme leur nom l'indique, les algorithmes basés sur des règles cherchent à définir les règles en vertu desquelles une langue donnée divise et prononce ses mots. Par exemple, en français, on peut couper des syllabes entre deux lettres doubles ou avant le début d'une syllabe contenant une consonne (du moins la plupart du temps).

Le problème des approches basées sur des règles est qu'elles sont grandement tributaires des linguistes. La liste de règles doit être exacte et complète, et les règles doivent parfois être appliquées dans un ordre précis. En outre, comme le souligne Constance Adsett, « les règles ne permettent pas toujours des exceptions. »

Mme Adsett privilégie les approches axées sur les données. Il s'agit d'utiliser une base de données de mots dont on connaît la décomposition en syllabes. Quand le système rencontre un nouveau mot, il compare sa structure à celle des mots connus afin de déterminer la bonne décomposition. Avec chaque nouveau mot, le système « apprend » davantage, ce qui devrait accroître son niveau d'exactitude pour les prochains mots nouveaux qu'il rencontrera. Cette approche s'applique à toutes les langues.

« Les exceptions sont plus faciles à traiter, parce qu'il y a différents types de mots avec lesquels le mot nouveau pourrait correspondre », explique Mme Adsett.

Les travaux de Constance Adsett porteront sur neuf langues, choisies essentiellement parce que les bases de données existent déjà. Cette liste comprend les langues principales comme l'anglais et le français, mais également des langues moins connues comme le frison (langue parlée dans la province du Nord des Pays-Bas) et le basque (langue parlée dans le Nord de l'Espagne). Ces deux dernières bases de données existent grâce aux efforts des personnes qui tentent de préserver les dialectes traditionnels.

Ce domaine de recherche plaît à la nature pratique de Constance Adsett. La technologie de synthèse de la parole à partir du texte améliore l'accès à l'information pour tous, mais elle est particulièrement utile pour certains groupes de personnes handicapées. Par exemple, un tel système peut lire pour les aveugles le contenu d'un document électronique, et les personnes muettes peuvent taper des mots au clavier que l'ordinateur prononcera pour elles. Les connaissances acquises pour améliorer les systèmes de synthèse de la parole à partir du texte peuvent également aider les chercheurs à comprendre comment le cerveau traite le langage, ce qui pourrait contribuer au traitement des problèmes de la parole.

« Idéalement, toutes les recherches visent à améliorer le sort de l'humanité, mais parfois, il est bon d'en avoir vraiment conscience », ajoute Constance Adsett.