Actualité

Audio

L'IA VALL-E de Microsoft peut reproduire le timbre et l'émotion d'une voix

Par June Cantillon - Mis à jour le - Brève

Microsoft a démontré récemment le potentiel de son algorithme VALL-E permettant de reproduire le timbre et même l'émotion d'une voix humaine en se basant sur de courts enregistrements.

L'IA VALL-E de Microsoft peut reproduire le timbre et l'émotion d'une voix


Le programme s'appuyant sur l'apprentissage automatique et nourri de nombreux exemples (60 000 heures d'enregistrements en anglais de 7 000 personnes en provenance d'une banque de son de Meta) peut également reproduire l'acoustique d'une pièce, et sera certainement redoutable lorsqu'il s'agirait de créer des deepfakes. Il reste toutefois quelques limites, le programme n'étant vraiment performant qu'en anglais et avec une voix se rapprochant des exemples dont il a été abreuvé. Microsoft prévoit déjà d'améliorer les performances en gavant son programme de nouveaux enregistrements et indique ne pas prévoir de rendre open source son projet de crainte des mauvais usages (évidents).