En bref, la technologie de synthèse vocale est un moyen puissant de permettre à des personnes qui ne le pourraient pas autrement de découvrir le web. Cette technologie a évolué et fonctionne admirablement bien, même si elle n’est pas encore arrivée au point où elle semble aussi naturelle que si quelqu’un vous lisait à haute voix.

C’est là qu’intervient le projet Polly d’Amazon, qui vise à se rapprocher le plus possible d’une parole authentique. Dans cet article, nous allons parler de l’état actuel des logiciels de synthèse vocale et vous présenter le projet Polly d’Amazon. Ensuite, nous vous ferons part de nos impressions sur la façon dont Amazon Polly et WordPress fonctionnent ensemble. Parlons-en !

Ce qu’est un logiciel de synthèse vocale (et quand il est judicieux de l’utiliser)

Le concept du logiciel de synthèse vocale est simple : vous prenez un paragraphe, une page, un article ou même un livre entier et vous demandez à un ordinateur de vous le lire à haute voix. Lorsque les gens pensent à la synthèse vocale, ils l’associent souvent à des voix robotiques et à des cadences guindées. Toutefois, ce n’est plus le cas, en particulier avec les logiciels modernes.

Pour certains, la synthèse vocale peut sembler être un gadget, mais il s’agit d’une technologie qui a des applications très pratiques, comme par exemple

  • Permettre aux personnes handicapées de « lire ». L’utilisation la plus évidente des logiciels de synthèse vocale est de permettre aux personnes souffrant de déficiences visuelles de consommer du contenu écrit.
  • Il offre une expérience de lecture sans intervention manuelle. Même si votre vue est parfaite, il est parfois plus confortable ou plus pratique d’écouter quelque chose au lieu de le lire.
  • Pour les situations où les versions audio du contenu ne sont pas disponibles. De nos jours, la plupart des livres populaires sont également publiés en format audio. Toutefois, il n’en va pas de même pour la plupart des autres contenus écrits, notamment les articles, les poèmes, etc. Les logiciels de synthèse vocale vous permettent d’écouter tout le contenu écrit que vous souhaitez tant que la fonctionnalité est intégrée.

D’un point de vue technique, il est beaucoup plus difficile d’obtenir une bonne synthèse vocale que vous ne l’imaginez. Enregistrer la parole humaine et la reproduire n’est que le début, ce qui nous amène à la section suivante.

L’état actuel des logiciels de synthèse vocale

Si vous vous souvenez de ce à quoi ressemblait un logiciel de synthèse vocale il y a encore quelques années, vous n’avez peut-être pas une vision positive de cette technologie. Pourtant, ce type de logiciel a beaucoup évolué au cours des dernières années. Voici un exemple rapide de la fonctionnalité de synthèse vocale du Kindle d’Amazon en action, à la lecture d’Orgueil et Préjugés :

Vous remarquerez que la vidéo présente plusieurs voix, dont certaines sonnent mieux que ce que l’on pourrait imaginer. Certes, elles sont toutes un peu guindées, mais l’interprétation de l’Anglais, en particulier, est très agréable à entendre. La différence entre la voix d’un être humain lisant le texte est perceptible. Cependant, il n’est pas exclu que quelqu’un puisse lire un livre entier en utilisant la synthèse vocale et l’apprécier quand même. De plus, votre narrateur informatisé ne se fatiguera jamais et n’aura jamais de difficultés à s’exprimer, ce qui lui donne un avantage sur les humains.

Naturellement, il existe de nombreux autres logiciels offrant des capacités de synthèse vocale décentes, comme Natural Reader. Ce programme vous permet d’ouvrir et d’éditer vos documents, ainsi que de coller du contenu et de vous le faire lire à haute voix dans plus de 50 voix différentes. Voici une vidéo d’introduction rapide utilisant certaines des voix proposées par le logiciel :

La différence de qualité entre Natural Reader et Amazon est évidente. La parole semble beaucoup plus mécanique et les pauses entre les mots sont plus perceptibles. Cependant, l’augmentation de la vitesse du lecteur permet de masquer ces problèmes.

En résumé, la qualité des logiciels de synthèse vocale varie encore beaucoup. Dans quelques années, la technologie fera probablement un bond en avant massif grâce aux applications d’apprentissage automatique. À ce stade, il ne sera peut-être plus aussi facile de discerner si vous écoutez une machine vous lire à haute voix ou un véritable être humain.

The Amazon Polly homepage.
  • https://www.facebook.com/lafactoryworld
  • https://twitter.com/lafactory
  • Gmail
  • https://www.linkedin.com/company/lafactory-inc

Amazon Polly est un service cloud qui vous permet de transformer du texte en parole dans plus de 20 langues, en utilisant plus de 40 voix uniques. Le service existe depuis 2016, mais c’est en 2018 qu’Amazon a lancé un plugin pour aider les utilisateurs de WordPress à l’intégrer dans leurs sites web.

Le plugin lui-même était le produit d’un effort conjoint entre Amazon et WP Engine. Il fonctionne à la fois sur les sites Web alimentés avec Amazon Web Services (AWS) et ceux qui fonctionnent sur des hébergeurs indépendants. Dans les deux cas, vous pouvez utiliser Polly pour générer du son pour votre contenu écrit et permettre aux utilisateurs de le reproduire. De plus, il vous permet de stocker les versions audio de vos articles sur votre propre serveur ou en utilisant le service de stockage simple (S3) d’Amazon, moyennant un coût.

Sur cette page, vous trouverez plusieurs exemples de discours Amazon Polly dans différentes langues :

A screenshot of Amazon Polly's homepage.
  • https://www.facebook.com/lafactoryworld
  • https://twitter.com/lafactory
  • Gmail
  • https://www.linkedin.com/company/lafactory-inc

Les exemples sont assez courts, mais les voix anglaises en particulier sont tout à fait décentes. Les exemples sont assez courts, mais les voix anglaises, en particulier, sont tout à fait correctes. L’expérience est comparable à celle de la conversion du texte de votre Kindle en parole, ce qui est normal puisque la technologie est probablement la même.

En ce qui concerne les coûts, vous aurez besoin d’un compte AWS pour utiliser Polly. Toutefois, le service prend en charge gratuitement jusqu’à cinq millions de caractères par mois, pendant une durée maximale de 12 mois. Pour vous donner une idée, il y a en moyenne sept à huit caractères pour chaque mot anglais. Avec Amazon Polly, cela représente plus de 600 000 mots par mois et gratuitement, soit environ six fois la longueur d’un long roman.

Caractéristiques principales :

  • Générez de la parole pour votre texte dans plus de 20 langues.
  • Choisissez parmi plus de 40 voix pour votre texte.
  • Activez la synthèse vocale par défaut pour tout votre contenu WordPress.
  • Générez un lecteur pour les versions audio de vos articles et contrôlez son placement.
  • Stockez vos fichiers audio sur votre serveur ou en utilisant Amazon S3.
  • Convertissez jusqu’à cinq millions de caractères en audio gratuitement par mois.

Prix : Gratuit et premium disponible | Plus d’informations

Notre expérience de l’utilisation du plugin Amazon Polly

L’installation d’Amazon Polly sur WordPress est remarquablement simple. Après avoir activé le plugin, il suffit de le connecter à votre compte AWS en utilisant une clé d’accès et une clé secrète:

Adding your AWS access and secret keys to WordPress.
  • https://www.facebook.com/lafactoryworld
  • https://twitter.com/lafactory
  • Gmail
  • https://www.linkedin.com/company/lafactory-inc

Une fois que vous avez lié le plugin à votre compte AWS, vous pouvez configurer la voix qu’il doit utiliser par défaut. D’autres paramètres incluent le taux de lecture, qui contrôle la vitesse du son de la synthèse vocale, et la position du lecteur qu’Amazon Polly utilise pour le reproduire :

Configuring your Amazon Polly plugin.
  • https://www.facebook.com/lafactoryworld
  • https://twitter.com/lafactory
  • Gmail
  • https://www.linkedin.com/company/lafactory-inc

Il existe même une option de lecture automatique pour vos fichiers audio Amazon Polly, que nous vous encourageons à désactiver pour le bien de vos utilisateurs. Vous pouvez également configurer l’endroit où Amazon Polly stockera les fichiers audio de vos articles, y compris l’option de les enregistrer sur votre compte S3. Si vous utilisez Amazon CloudFront, vous pouvez également l’utiliser pour distribuer vos fichiers audio afin de réduire l’impact sur vos serveurs :

Configuring where the Amazon Polly plugin stores its audio output.
  • https://www.facebook.com/lafactoryworld
  • https://twitter.com/lafactory
  • Gmail
  • https://www.linkedin.com/company/lafactory-inc

Une fonctionnalité qui nous a surpris est la possibilité de générer un flux de podcast à l’aide d’Amazon Polly, que vous pouvez lier à un compte iTunes. Personnellement, nous ne pensons pas que la qualité de la synthèse vocale soit encore suffisante pour un podcast de haute qualité. Cependant, l’inclusion de cette option est un pas dans la bonne direction :

Configuring the plugin's podcasting capabilities.
  • https://www.facebook.com/lafactoryworld
  • https://twitter.com/lafactory
  • Gmail
  • https://www.linkedin.com/company/lafactory-inc

Si vous activez Amazon Polly, un lecteur audio sera ajouté à chacun de vos articles. Cependant, vous pouvez désactiver la fonction de synthèse vocale pour les articles au cas par cas. Il suffit de les modifier et de rechercher la métaboxe Activer Amazon Polly :

The Amazon Polly widget.
  • https://www.facebook.com/lafactoryworld
  • https://twitter.com/lafactory
  • Gmail
  • https://www.linkedin.com/company/lafactory-inc

Ce widget vous permet également de visualiser le coût de la synthèse vocale pour chaque article, ce qui est très appréciable. Désormais, lorsque les visiteurs accèdent à vos articles, ils peuvent cliquer sur le lecteur audio d’Amazon Polly, s’asseoir et les écouter tranquillement. Dans l’ensemble, l’expérience d’intégration du service avec WordPress est remarquablement simple grâce à ce plugin.

Conclusion

Les voix réalistes sont le Saint Graal des logiciels de synthèse vocale. Le problème est qu’il est compliqué d’émuler la voix d’une personne réelle lorsque vous avez des combinaisons de mots quasi infinies. Malgré tout, les logiciels de synthèse vocale continuent de s’améliorer et Amazon Polly vous offre un excellent moyen d’ajouter cette fonctionnalité à vos sites Web et applications.

En ce qui concerne le son, Amazon Polly offre une bonne expérience de synthèse vocale. Son intégration dédiée à WordPress est facile à mettre en place, et elle vous coûtera très peu grâce aux prix compétitifs d’AWS.

Vous avez des questions sur l’ajout de la fonction de synthèse vocale à votre site Web ? Posez-les dans la section des commentaires ci-dessous !

Image miniature de l’article par vectorEps / shutterstock.com.