J'ai une trame de données de pandas géants, df qui ressemble à ceci:Retour la liste de chaque mot dans une cellule de pandas géants et le nombre total de ce mot dans toute la colonne
column1
0 apple is a fruit
1 fruit sucks
2 apple tasty fruit
3 fruits what else
4 yup apple map
5 fire in the hole
6 that is true
Je veux produire un colonne2 , qui est la liste de chaque mot dans la ligne et le nombre total de chaque mot dans la colonne entière. Donc, la sortie serait quelque chose comme ça ....
column1 column2
0 apple is a fruit [('apple', 3),('is', 2),('a', 1),('fruit', 3)]
1 fruit sucks [('fruit', 3),('sucks', 1)]
J'ai essayé d'utiliser le sklearn, mais je n'ai pas réussi à atteindre ce qui précède. Besoin d'aide pour.
from sklearn.feature_extraction.text import CountVectorizer
v = CountVectorizer()
x = v.fit_transform(df['text'])