Le problème est que le traitement de la parole est pas assez bon pour déterminer si vous êtes une pause en raison de l'énumération des éléments dans une liste, ou si vous arrêtant de se rappeler l'autre moitié du nom de l'objet que vous essayez de retenir. Considérons, par exemple, si vous essayez de commander un hamburger avec des cornichons, un cheeseburger avec du cheddar et un cheeseburger avec des frites. Le dicton humain pourrait dire quelque chose comme: "Je vais prendre un hamburger avec [pause] pickles [pause] un cheeseburger [pause] avec du cheddar et un cheeseburger avec des frites." Dans ce cas, ils ne s'arrêteront pas avant le dernier élément (parce qu'ils savent exactement ce qu'ils veulent), mais ils pourraient le faire avant les autres parce qu'ils réfléchissent toujours. Je ne connais pas votre système et si vos éléments sont ou peuvent utiliser un vocabulaire contrôlé, mais être capable de limiter ce que votre système peut considérer comme un élément distinct vous aide à le décomposer dans la liste dont vous avez besoin au lieu d'utiliser un son audible. (Dans l'exemple, nous pourrions dire que "hamburger", "cheeseburger", et "frites" peuvent être des articles distincts pouvant être commandés, donc peuvent les utiliser comme indices pour la liste.)
Donc, je vais avoir besoin d'une extraction de nom d'entité sur ma liste afin de savoir quels termes sont et éventuellement un algorithme de prédiction pour savoir avec certitude que le hamburger avec cornichons est un produit et non deux. Est-ce vrai? –
Je ne sais pas quel back-end vous utilisez pour traiter le texte, mais ce sont des approches raisonnables, oui. – Prisoner