Discipline(s) : Infomatique et télécommunications
Vocal and Acoustic Interactions
Semestre | Semestre 1 |
---|---|
Nature | UE |
Responsables
Frédéric Bimbot
Objectifs
Une première partie du module a pour objectif de donner une vue d'ensemble des concepts fondamentaux, des spécificités, et des outils du traitement du signal audio, ainsi que de leurs applications en interaction vocale et rendu sonore. On abordera notamment le rôle de la spatialisation pour l'immersion 3D, la localisation et la séparation de sources pour l'analyse de scène, et on présentera quelques applications et champs de recherche récents. Une seconde partie du module est destinée à fournir un panorama des méthodes impliquées dans les systèmes de dialogue ou à interface vocale. La focalisation porte sur la reconnaissance de la parole, les algorithmes d’apprentissage automatique utilisés pour la compréhension et la synthèse de la parole.
Mots-clés
Traitement du signal audio; analyse de scène auditive; séparation de sources sonores; reconnaissance de la parole; synthèse de la parole; dialogue automatique; analyse sémantique partielle et robustePrérequis
Notions de bases en algèbre et statistiques, programmation dynamique, algorithmie et apprentissage automatique.Contenu
Traitement du signal audio : principes et algorithmes- Analogique vs. numérique
- Filtrage et convolution
- La Transformée de Fourier (discrète, rapide, à court terme,...)
- Autres représentations (Bancs de filtres, MFCC,...)
- Notions de traitement du signal statistique (Stationnarité, processus Gaussiens,...)
- Propagation du son (Vitesse, délai, amplitude, réflexion, absorption)
- Réponse impulsionnelle de salle (mesure, analyse, synthèse)
- Audition binaurale (HRTFs, indices binauraux,...)
- Localisation de sources (TDOA, GCC, MUSIC)
- Séparation de sources (Beamforming, Modèle Gaussien local, ICA, DUET)
- Classification audio
- Fusion audio-visuelle
- Audition robotique
- Éléments introductifs en physiologie, phonologie et linguistique
- Formalisation statistique
- Modèles acoustiques (HMM, DNN)
- Modèles de langue (grammaires, n-grammes, réseaux de neurones)
- Dictionnaire de prononciations (phonétisation, gestion de vocabulaire)
- Évaluation (taux d’erreurs, perplexité, évaluation dans une application)
- Introduction aux systèmes de dialogue/ interface vocale
- Apprentissage automatique pour la compréhension de parole (HMM, CRF, Réseau de Neurones)
- Pré-traitements linguistiques, phonétiques et prosodiques
- Approches par concaténation (diphones, sélection d’unités)
- Approches statistiques paramétriques (HMM, DNN)
- Approches hybrides
- Méthodologies d’évaluations objectives et perceptives
Compétences acquises
- Fondements du traitement du signal audio (représentations temps fréquence, convolution, filtrage)
- Algorithmes de localisation et de séparation de sources sonores
- Introduction à la reconnaissance et synthèse de la parole
- Ouverture à la recherche en interaction vocale et sonore
Appartient à
Mise à jour le 17 juillet 2017
Contact(s)
Département Informatique
École normale supérieure de RennesCampus de Ker LannAvenue Robert Schuman
35170 BRUZ
Tél. : 02 99 05 52 43
E-mail
Site Internet
École normale supérieure de RennesCampus de Ker LannAvenue Robert Schuman
35170 BRUZ
Tél. : 02 99 05 52 43
Site Internet