Siri se met au shanghaïen (et parle 21 langues)
Par Laurence - Publié le
Siri vient d'ajouter le shanghaïen -dit aussi dialecte de Shanghai- à son CV et parle désormais 21 langues localisées dans 36 pays, une capacité très importante sur un marché de smartphones où la plupart des ventes sont en dehors des États-Unis.
Dans une interview accordée à Reuters, Alex Acero -Apple’s head of speech- en profite pour expliquer les méthodes d'apprentissage de l'assistant d'Apple. En effet, le processus est assez fastidieux puisqu'il repose sur une série d'étapes plus ou moins longues. Il débute par une phase préalable de lecture de passages identiques par différentes personnes, et ce, afin de recueillir des intonations ou des accents différents.
Ces enregistrements sont ensuite retranscrits manuellement pour avoir la représentation exacte d'une langue parlée et pouvoir reconnaître les mots en tenant compte de la diversité des voix existantes. À partir de cette étape, un modèle type de langage est construit, qui va prédire des séquences de mots et devancer les spécificités vocales des utilisateurs.
Ensuite, Apple passe à une phase supplémentaire pour affiner la reconnaissance vocale en utilisant le mode dictée, sur iOS et macOS. Cela permet d'obtenir davantage d'échantillons -envoyés anonymement-et de constituer une base de données beaucoup plus large.
Une fois que le système possède suffisamment d'informations, la voix d'un acteur est enregistrée pour interpréter l'assistant et Siri est enfin déployé. Par la suite, ce dernier est mis à jour toutes les deux semaines environ.
Source
Dans une interview accordée à Reuters, Alex Acero -Apple’s head of speech- en profite pour expliquer les méthodes d'apprentissage de l'assistant d'Apple. En effet, le processus est assez fastidieux puisqu'il repose sur une série d'étapes plus ou moins longues. Il débute par une phase préalable de lecture de passages identiques par différentes personnes, et ce, afin de recueillir des intonations ou des accents différents.
Ces enregistrements sont ensuite retranscrits manuellement pour avoir la représentation exacte d'une langue parlée et pouvoir reconnaître les mots en tenant compte de la diversité des voix existantes. À partir de cette étape, un modèle type de langage est construit, qui va prédire des séquences de mots et devancer les spécificités vocales des utilisateurs.
Ensuite, Apple passe à une phase supplémentaire pour affiner la reconnaissance vocale en utilisant le mode dictée, sur iOS et macOS. Cela permet d'obtenir davantage d'échantillons -envoyés anonymement-et de constituer une base de données beaucoup plus large.
Une fois que le système possède suffisamment d'informations, la voix d'un acteur est enregistrée pour interpréter l'assistant et Siri est enfin déployé. Par la suite, ce dernier est mis à jour toutes les deux semaines environ.
Source