1
A partir d'un document, je veux générer tous les n-grammes qui contiennent un certain mot.Trouver tous les n-grammes qui contiennent un certain mot efficacement
Exemple:
document: i am 50 years old, my son is 20 years old
word: years
n: 2
Sortie:
[(50, years), (years, old), (20, years), (years, old)]
Je sais que nous pouvons générer tous les n-grammes possibles et filtrer ceux avec le mot, mais je me demandais s'il y a un plus moyen efficace de le faire. Je prévoyais d'utiliser PySpark pour les générer.
Regardez dans les outils. – perigon
Salut! plus efficace que quoi? que faites-vous actuellement? – arturomp