2017-08-25 4 views
0

si j'ai une chaîne "Bonjour, je suis XYZ" il peut être symbolisé en jetons: - "Bonjour", "I", "am", "XYZ". Mais Comment devrais-je tokenise une chaîne séparée par un espace. par exemple: "Bonjour, IamXYZ"?Comment est-ce que je tokenise la chaîne séparée par un espace?

+0

Tokenize sur quoi, mots anglais? Lire dans un dictionnaire et voir si des combinaisons correspondent. Mais je m'attends à ce que beaucoup de chaînes soient ambiguës (deux ou plusieurs validations valides) – Kevin

Répondre

0

Si vous n'avez pas d'espace dans une chaîne, vous utilisez un dictionnaire pour le marquer.

Une autre approche utilise des ngrammes, mais attention à la longueur de la chaîne car elle pourrait créer beaucoup de ngrammes!

+0

Comment utiliser un dictionnaire? Je peux utiliser ngrams mais cela prendrait du temps, je dois le comparer avec ngram de chaque mot présent dans mon dictionnaire. par exemple si c'est WhereisIndia? son bigram serait {wh, he, er, re, ei, sI ....}, je dois prendre {wh, he} et le comparer avec bigrams de tous les mots, puis {wh, he, er} est comparé avec bigram de chaque mot et ainsi de suite .... –