Saisie de l'entrée «quick brown fox sauté» Je souhaite créer toutes les combinaisons de jetons possibles pour les mots. Ainsi, la chaîne exemple serait tokenisé àÉlastique tokenize dans toutes les combinaisons de mots possibles
[
"quick", "quick brown", "quick fox", "quick jumped",
"brown", "brown quick", "brown fox", "brown jumped",
...,
"jumped quick", "jumped brown", "jumped fox", "jumped"
]
je pourrais utiliser shingle tokeniser pour elle, mais elle ne crée de nouveaux jetons en concaténant termes adjacents et je finis avec:
[
"quick", "quick brown", "quick brown fox", "quick brown fox jumped",
"brown", "brown fox", "brown fox jumped",
"fox", "fox jumped",
"jumped"
]
Quelle est la bonne avant mais pas la chose que je cherche.
Pouvez-vous expliquer le cas d'utilisation que vous recherchez? – Val
@Val Longue histoire courte - pour produire des agrégations de termes non seulement sur des termes simples (["rapide", "brun", "renard", "sauté"]) mais aussi sur des combinaisons de ces mots/termes –