Je suis très nouveau Python et j'essaie d'analyser des données à partir d'un ensemble de données.Python: Collecte de données à partir de l'ensemble de données
Disons que j'ai un ensemble de données d'une certaine dégustation de nourriture. Par exemple:
{'review/appearance': 2.5, 'food/style': 'Cook', 'review/taste': 1.5, 'food/type': 'Vegetable' .... }
{'review/appearance': 5.0, 'food/style': 'Instant', 'review/taste': 4.5, 'food/type': 'Noodle' ....}
et j'ai 50 000 de ces entrées et je suis en train de trouver combien de différents types d'aliments, il y a en tapant le code suivant:
data = list(parseData("/Path/to/my/dataset/file"))
def feature(datum):
feat = [datum['food/type']]
return feat
#making a separate list of food style
foodStyle = [feature(d) for d in data]
newFoodStyle = list()
#converting the foodStyle list to just one list
for sublist in foodStyle:
for item in sublist:
newFoodStyle.append(item)
uniqueFood = Counter(newFoodStyle) #using counter variable to count how many unique food type there are
a = "There are %s types of food" % (len(uniqueFood))
print a
#print uniqueFood gives me 'Counter({'Noodle': 4352, 'Vegetable': 3412 and etc})
Maintenant que je suis arrivé combien Il y a différents types d'aliments, J'ai besoin de beaucoup d'aide pour calculer la valeur moyenne de la «révision/goût» pour chaque type unique d'aliment présent dans l'ensemble de données.
Je sais qu'il ya 50k entrées, donc je suis en train de seulement analyser le plus revu top alimentaire 10.
Ai-je besoin de boucler chaque entrée et l'air pour chaque variable uniqueFood et faire une liste séparée de chaque uniqueFood , comme Noodle = list [] et ajoutez le numéro 'review/taste' suivant?
Des conseils ou des idées sur la façon d'aborder ce problème seraient grandement appréciés.
Essayez d'utiliser des ensembles et définissez la longueur https://docs.python.org/2/library/sets.htm l – SatanDmytro