

- Mathieu Dubost
- Mise à jour le 01/17/2023
Comment l’IA conversationnelle communique avec l’appelant dans un langage naturel ?
Le machine learning de l’IA conversationnelle est capable d’apprendre, et ce, même s’il n’a pas été programmé pour. Cela est rendu possible grâce à l’analyse et au stockage des conversations qui sont enregistrées, par le callbot, dans d’énormes bases de données. La data est ainsi le carburant du machine learning.
L’analyse de toutes ces données permet d’abord de reconnaître et d’identifier des évidences et des corrélations. Ensuite, cette analyse permet de classer des patterns et enfin, de générer une prédiction de modèles complémentaires. On l’appelle l’apprentissage itératif. Ainsi, avec la pratique et au fil du temps, l’IA gagne en intelligence et les échanges s’enrichissent : l’agent conversationnel virtuel dialogue et répond aux requêtes.
L’analyse de toutes ces données permet d’abord de reconnaître et d’identifier des évidences et des corrélations. Ensuite, cette analyse permet de classer des patterns et enfin, de générer une prédiction de modèles complémentaires. On l’appelle l’apprentissage itératif. Ainsi, avec la pratique et au fil du temps, l’IA gagne en intelligence et les échanges s’enrichissent : l’agent conversationnel virtuel dialogue et répond aux requêtes.




Comment fonctionne le système de reconnaissance vocale du callbot ?
Le langage oral est la façon la plus naturelle de communiquer. Encore faut-il que l’intelligence artificielle vocale soit capable de comprendre les 180 mots que l’humain prononce en moyenne par minute. Ainsi, la reconnaissance vocale est le deuxième élément-clé de l’intelligence artificielle conversationnelle. Alors, comment cette commande vocale fonctionne-t-elle ?
Dans un premier temps, le micro capte la voix. Puis un logiciel de reconnaissance vocale transforme celle-ci en signal électrique ondulatoire. Lui-même converti en signal numérique. Lui-même retranscrit en phonèmes. Pour, au final, construire des mots.
En bref, la reconnaissance vocale est un logiciel voice-to-text (VTT). C’est-à-dire un logiciel qui transforme une requête vocale en texte dans lequel le contexte est évalué à l’aide d’un pourcentage de mots correctement reconnus. Diaphonie, accent et bruit de fond tendent à s’auto-corriger. La précision affiche déjà 95 %* de réussite.
Dans un premier temps, le micro capte la voix. Puis un logiciel de reconnaissance vocale transforme celle-ci en signal électrique ondulatoire. Lui-même converti en signal numérique. Lui-même retranscrit en phonèmes. Pour, au final, construire des mots.
En bref, la reconnaissance vocale est un logiciel voice-to-text (VTT). C’est-à-dire un logiciel qui transforme une requête vocale en texte dans lequel le contexte est évalué à l’aide d’un pourcentage de mots correctement reconnus. Diaphonie, accent et bruit de fond tendent à s’auto-corriger. La précision affiche déjà 95 %* de réussite.
Dès lors, tout l’enjeu se situe dans la bonne interprétation du contexte. Car la prononciation des homonymes peut transformer le sens des mots voulus et induire en erreur. Le choix de l’interprétation s’appuie donc, là aussi, sur le contexte.
Par exemple, dans l’objectif d’une prise de rendez-vous de vaccination contre la COVID-19, « diseur » doit être interprété comme une proposition d’heure : 10 heures et non comme l’application de streaming musical Deezer. De même, « failleseur » doit être compris comme étant le vaccin Pfizer (/ˈfaɪzə(ɹ)/).
Par exemple, dans l’objectif d’une prise de rendez-vous de vaccination contre la COVID-19, « diseur » doit être interprété comme une proposition d’heure : 10 heures et non comme l’application de streaming musical Deezer. De même, « failleseur » doit être compris comme étant le vaccin Pfizer (/ˈfaɪzə(ɹ)/).
Téléchargez notre livre blanc !
Pour tout savoir sur nos outils CRM & télécom associés
Notre livre blanc vous apporte un éclairage pour mieux saisir les enjeux liés à la relation client : une vision d’ensemble pour vous aider à choisir les solutions répondant à vos besoins.
De même que le robot doit comprendre l’appelant, l’intelligence artificielle vocale doit être capable de s’exprimer et de se faire comprendre. Comme le logiciel voice-to-text convertit la voix en texte, la technologie du text-to-speech (TTS) compose la voix de synthèse. Alors que des outils de traitement linguistique se consacrent au découpage du texte, de phrases en mots, un synthétiseur vocal coordonne la transcription phonétique. Au final, l’association VTT et TTS génère donc la synthèse vocale. Le callbot se distingue ainsi du chatbot qui se concentre uniquement sur l’écrit.
Avec l’apport du deep-learning et son modèle de réseaux de neurones artificiels préalablement entraînés, la voix se module jusqu’à façonner sa propre signature sonore. Intonation, timbre, volume sonore, rythme du débit, accent, respiration, nuance, etc, se travaillent pour simuler des émotions.
Avec l’apport du deep-learning et son modèle de réseaux de neurones artificiels préalablement entraînés, la voix se module jusqu’à façonner sa propre signature sonore. Intonation, timbre, volume sonore, rythme du débit, accent, respiration, nuance, etc, se travaillent pour simuler des émotions.
*Source : Chiffre du service R&D Logicielnet où les 3 ans de recherche, financée par la BPIfrance, permettent d’afficher aujourd’hui un taux de compréhension des demandes à plus de 95%.
Questions - Réponses
En externalisant votre service client, le callbot permet de :
- Supprimer les files d’attente sur votre ligne téléphonique grâce à un décroché direct, sans temps d’attente.
- Réaliser les missions les plus courantes et les plus récurrentes.
- Supprimer l’utilisation d’internet pour la prise de RDV.