J'essaye de représenter un ensemble de mots par des nombres. J'ai ce code à ce jour:Mot de Python à la représentation d'identification
from sklearn.preprocessing import OneHotEncoder
import itertools
docs = ["select", "max", "income", "from", "data", "where", "revenue", "between", "20", "40"]
# split documents to tokens
tokens_docs = [doc.split(" ") for doc in docs]
# convert list of of token-lists to one flat list of tokens
# and then create a dictionary that maps word to id of word,
# like {A: 1, B: 2} here
all_tokens = itertools.chain.from_iterable(tokens_docs)
word_to_id = {token: idx for idx, token in enumerate(set(all_tokens))}
Cependant, il y a une restriction - lorsque le jeton lui-même est déjà un certain nombre, je dois attribuer la même valeur que le nombre (dans le dictionnaire word_to_id). Des suggestions?
Bien que cela puisse répondre à la question, certains commentaires et/ou explication serait bien. Cela aidera aussi les autres utilisateurs. – VDWWD
fixe, merci)) – vZ10