J'utilise actuellement uni-grammes dans mon modèle word2vec comme suit.Get bigrams et trigrams dans word2vec Gensim
def review_to_sentences(review, tokenizer, remove_stopwords=False):
#Returns a list of sentences, where each sentence is a list of words
#
#NLTK tokenizer to split the paragraph into sentences
raw_sentences = tokenizer.tokenize(review.strip())
sentences = []
for raw_sentence in raw_sentences:
# If a sentence is empty, skip it
if len(raw_sentence) > 0:
# Otherwise, call review_to_wordlist to get a list of words
sentences.append(review_to_wordlist(raw_sentence, \
remove_stopwords))
#
# Return the list of sentences (each sentence is a list of words,
# so this returns a list of lists
return sentences
Cependant, alors je vais manquer des bigrams et des trigrams importants dans mon ensemble de données.
E.g.,
"team work" -> I am currently getting it as "team", "work"
"New York" -> I am currently getting it as "New", "York"
Par conséquent, je veux capturer les bigrammes importants, etc. trigrammes dans mon ensemble de données et d'entrée dans mon modèle word2vec. Je suis nouveau à WordVec et luttes comment le faire. Aidez-moi, s'il vous plaît.
Fournissez du code et un meilleur exemple. L'exemple que vous montrez ne reflète pas les données que vous avez fournies dans la première ligne – AK47
Fait! Mise à jour de la question S'il vous plaît aidez-moi à résoudre ce problème. –