Traitement automatique de la parole expressive : retour vers des systèmes interprétables? - Thèses et HDR de l'Université du Mans Accéder directement au contenu
Hdr Année : 2023

Expressive speech processing: back to interpretable systems ?

Traitement automatique de la parole expressive : retour vers des systèmes interprétables?

Résumé

Speech is a fundamental means of communication that is part of an interaction between the speaker and his/her listeners. In addition to semantic content, the speech signal embeds personal speaker characteristics such as age, gender or emotional state. The study of expressive speech is a multidisciplinary field of research ranging from the acoustic production of speech to the cognitive mechanisms used by the speaker during the interaction to express his thoughts. Since the beginning of my research in 2009, I have been trying to precise what is called expressive speech by going back and forth between statistical or neural machine learning methods considered as black boxes that are not very interpretable but performant, and the analysis of the expressive phenomenon using acoustic and linguistic elements. My goal is to study how and in what way machine learning systems can provide knowledge on the different acoustic, cognitive and interaction mechanisms that induce the production of expressive speech. This work involves combining machine learning methods and a fine analysis of expressivity in order to determine the links between data, expert features and latent representations from the models. My research work at LIMSI, IRISA and LIUM covers the analysis of expressive speech on several levels: audio signal segmentation (speech, silence, overlapping speech, speaker, etc.), high-level characterization (interruption, hesitations, emotion, etc.), and expressive speech signal generation. Studying both facets (analysis and synthesis) allows to finely define the expressive phenomenon by acoustic, prosodic, phonetic and linguistic characteristics, and also to validate these characteristics by signal synthesis and their perceptual evaluation. This double point of view is, in my opinion, very important to understand the oral behaviors of human beings in all their diversity and complexity.
La parole est un moyen de communication fondamental qui s’inscrit dans une interaction entre le locuteur et ses auditeurs. En plus du contenu sémantique, le signal de parole nous informe sur des caractéristiques personnelles du locuteur comme son âge, son genre ou son état émotionnel. L’étude de la parole expressive est un champ de recherche pluridisciplinaire allant de la production acoustique de la parole aux mécanismes cognitifs mis en jeu par le locuteur pendant l’interaction pour exprimer sa pensée. Depuis le début de mes travaux de recherche en 2009, j’ai cherché à expliciter ce qu’on appelle parole expressive en réalisant des aller-retours entre les méthodes d’apprentissage automatique statistiques ou neuronales considérés comme des boîtes noires peu interprétables mais performantes, et l’analyse du phénomène expressif à l’aide d’éléments acoustiques et linguistiques. Mon objectif est d’étudier comment et en quoi les systèmes de traitement automatique peuvent apporter des connaissances sur les différents mécanismes acoustique, cognitif et d’interaction qui induisent la production d’une parole expressive. Ces travaux impliquent de combiner des méthodes d’apprentissage automatique et une analyse fine de l’objet d’étude afin de déterminer les liens entre données, paramètres experts et paramètres latents issus des modèles. Mes travaux de recherche réalisés au LIMSI, à l’IRISA et au LIUM, couvrent l’analyse de la parole expressive sur plusieurs niveaux : segmentation du signal audio (zones de parole, de silence, de parole superposée, locuteur, etc.), caractérisation haut niveau (interruption, hésitations, émotion, etc.), et génération d’un signal de parole expressif. Le fait d’étudier les deux facettes (analyse et synthèse) permet à la fois de définir finement un phénomène expressif par des caractéristiques acoustiques, prosodiques, phonétiques et linguistiques, et également de valider ces caractéristiques par la synthèse de signaux et leur évaluation perceptive. Ce double point de vue est, à mon sens, très important pour appréhender les comportements oraux des êtres humains dans toute leur diversité et complexité.
Fichier principal
Vignette du fichier
HDR_Tahon-v2.pdf (7.24 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

tel-04084205 , version 1 (03-05-2023)

Identifiants

  • HAL Id : tel-04084205 , version 1

Citer

Marie Tahon. Traitement automatique de la parole expressive : retour vers des systèmes interprétables?. Intelligence artificielle [cs.AI]. Le Mans Université, 2023. ⟨tel-04084205⟩
66 Consultations
38 Téléchargements

Partager

Gmail Facebook X LinkedIn More