Soutenance de thèse Robin VAYSSE "Caractérisation automatique du rythme de la parole : application aux cancers des voies aéro-digestives supérieures et à la maladie de Parkinson"

Publié le 9 mars 2023 Mis à jour le 18 janvier 2024
le 21 mars 2023
9h
Auditorium de l’IRIT (Université Toulouse 3)
srv
srv









Robin Vaysse soutiendra sa thèse devant un jury composé de:
  • François PELLEGRINO, Rapporteur, Directeur de recherche Université Lyon 2
  • Elisabeth DELAIS-ROUSSARIE, Rapporteure, Directrice de recherche Université de Nantes
  • Cécile FOUGERON, Examinatrice, Directrice de recherche, Université Sorbonne-Nouvelle
  • Virginie WOISARD-BASSOLS, Examinatrice, Praticienne hospitalière Centre Hospitalier Universitaire de Toulouse
  • Corine ASTESANO, Co-directrice de thèse, Professeure des universités Université Toulouse 2 Jean Jaurès
  • Jérôme FARINAS, Co-Directeur de thèse, Maître de conférences Université Paul Sabatier

Résumé de la thèse en français :
La prosodie est un élément essentiel de la parole. Elle constitue un moyen de transmettre l'emphase, le sens, la structure du discours ou encore les émotions. L'un des buts principaux de la prosodie est de segmenter les énoncés de parole en unités linguistiques plus courtes et de les organiser de manière cohérente pour l'auditeur. Les trois principes organisateurs de la prosodie sont : l'intonation, l'accentuation et le rythme. Le rythme de la parole peut être défini comme la récurrence de syllabes accentuées et leur organisation temporelle par rapport aux syllabes inaccentuées. Il joue un rôle primordial dans la structuration temporelle du flot de parole du point de vue du locuteur, et participe également à faciliter la compréhension du message pour l’auditeur. Le rythme est donc un élément central dans l’étude de la prosodie. 
Dans cette thèse, nous nous sommes intéressés à l’impact que certaines pathologies peuvent avoir sur la production du rythme de la parole. Plus particulièrement, nous avons étudié deux types de pathologies : la maladie de Parkinson, ainsi que les patients atteints d’un cancer de la cavité buccale ou de l'oropharynx ayant subi un traitement médical. Notre objectif principal a été de proposer une modélisation automatique du rythme de la parole pathologique. Grâce à cette modélisation, nous avons voulu mettre en évidence les régularités rythmiques à différents niveaux prosodiques, dans le but de pouvoir caractériser les stratégies de production de parole misent en jeu chez des personnes atteintes de ces deux pathologies. 
Après avoir posé le cadre théorique du rythme dans lequel nous nous plaçons, nous avons pû réaliser un état de l’art des différentes modélisations automatiques du rythmes existantes. Parmi les modélisations automatiques étudiées, nous avons sélectionné celles dont l’implémentation se rapproche au mieux de nos présupposés théoriques. Nous avons alors testé ces méthodes sur un corpus de slam dans le but de sélectionner les méthodologies qui modélisent au mieux la hiérarchie rythmique de la parole. La modélisation que nous avons retenu se base sur l’analyse des modulations lentes (inférieures à 10 Hz) de l’amplitude du signal de parole. Cette méthode appelée le spectre de modulation d’enveloppe (EMS) permet de caractériser la stratégie de segmentation de la parole des locuteurs. Ainsi, nous avons pu observer dans notre corpus de parole pathologique que les personnes présentant de forts troubles de l’articulation des syllabes ont tendance à favoriser une structuration prosodique très régulière. Au contraire, une personne sans troubles apparents de l’articulation présente une structuration prosodique moins régulière. Nous supposons donc que les patients dont l’intelligibilité est faible à cause de troubles articulatoires se focalisent davantage sur une structuration très régulière de leur parole avec des durées de groupes de mots de longueurs équivalentes. 
Nous avons par la suite modélisé l'intelligibilité des patients en nous focalisant uniquement sur des indices purement rythmiques issus de l’EMS. Cependant, après analyse des résultats, les indices rythmiques les plus corrélés au score d’intelligibilité de référence estimés par des médecins ORL étaient en réalité fortement dépendants du débit de parole. Nous avons donc proposé de nouvelles caractéristiques du rythme indépendantes du débit de parole. A l’aide de ces nouveaux paramètres, nous avons pu proposer une représentation en deux dimensions de notre corpus de parole pathologique. Cette représentation basée sur les niveaux principaux de régularités de l’EMS nous a permis de caractériser caractériser et de regrouper les personnes avec des stratégies de segmentation de la parole particulières. 
L’EMS est donc une modélisation pertinente du rythme de la parole qui permet de caractériser efficacement le rythme de la parole au travers d’une représentation de la régularité des niveaux prosodiques à différents niveaux de hiérarchie. 

Résumé de la thèse en anglais :
Prosody is an essential element of speech. It is a means of conveying emphasis, meaning, speech structure, or emotion. One of the main purposes of prosody is to segment speech utterances into shorter linguistic units and organize them in a coherent way for the listener. The three organizing principles of prosody are: intonation, stress and rhythm. Speech rhythm can be defined as the recurrence of stressed syllables and their temporal organization in relation to unstressed syllables. It plays a key role in the temporal structuring of the speech stream from the speaker's point of view, and also helps to facilitate the comprehension of the message for the listener. Rhythm is therefore a central element in the study of prosody. In this thesis, we were interested in the impact that certain pathologies can have on the production of speech rhythm. More specifically, we studied two types of pathologies: Parkinson's disease, and patients with cancer of the oral cavity or oropharynx who have undergone medical treatment. Our main objective was to propose an automatic modeling of the pathological speech rhythm. Thanks to this modeling, we wanted to highlight the rhythmic regularities at different prosodic levels, in order to characterize the speech production strategies used by people suffering from these two pathologies. After having established the theoretical framework of rhythm in which we place ourselves, we were able to carry out a state of the art of the various existing automatic models of rhythm. Among the studied automatic models, we have selected those whose implementation is the closest to our theoretical presuppositions. We then tested these methods on a slam corpus in order to select the methodologies that best model the rhythmic hierarchy of speech. The modeling we have chosen is based on the analysis of slow modulations (lower than 10 Hz) of the speech signal amplitude. This method, called the Envelope Modulation Spectrum (EMS), allows us to characterize the segmentation strategy of the speakers' speech. Thus, we observed in our corpus of pathological speech that people with strong disorders of syllable articulation tend to favor a very regular prosodic structuring. On the contrary, a person with no apparent articulation disorders presents a less regular prosodic structuring. We therefore assume that patients with poor intelligibility due to articulation disorders focus more on a very regular structuring of their speech with word group durations of equivalent lengths. We then modeled the patients' intelligibility by focusing only on purely rhythmic cues from the EMS. However, after analysis of the results, the rhythmic indices most correlated with the reference intelligibility score estimated by speech therapist were in fact strongly dependent on the speech rate. We therefore proposed new rhythmic features that are independent of speech rate. Using these new parameters, we were able to propose a two-dimensional representation of our pathological speech corpus. This representation based on the main levels of regularities of the EMS allowed us to characterize and group individuals with particular speech segmentation strategies. The EMS is thus a relevant modeling of speech rhythm that allows us to effectively characterize speech rhythm through a representation of the regularity of prosodic levels at different levels of hierarchy.