J'ai un jeu de données avec les trois premières colonnes suivantes. Inclure l'identifiant du panier (identifiant unique), le montant de la vente (dollars) et la date de la transaction. Je veux calculer la colonne suivante pour chaque ligne de l'ensemble de données, et je voudrais le faire en Python.Python - alignement des séries temporelles et fonctions "à jour"
Vente précédente du même panier (le cas échéant); Nombre de vente actuellement jusqu`à présent; Moyenne à ce jour pour le panier actuel (si disponible); Max à ce jour pour le panier actuel (si disponible)
Basket Sale Date PrevSale SaleCount MeanToDate MaxToDate
88 $15 3/01/2012 1
88 $30 11/02/2012 $15 2 $23 $30
88 $16 16/08/2012 $30 3 $20 $30
123 $90 18/06/2012 1
477 $77 19/08/2012 1
477 $57 11/12/2012 $77 2 $67 $77
566 $90 6/07/2012 1
Je suis assez nouveau avec Python, et je lutte vraiment trouver quoi que ce soit pour le faire d'une façon élégante. J'ai trié les données (comme ci-dessus) par NID et Date, afin que je puisse obtenir la vente précédente en vrac en avançant de un pour chaque panier. Aucune idée comment obtenir le MeanToDate et MaxToDate d'une manière efficace en dehors de la boucle ... des idées?
Quel est le format de votre 'ensemble de données' actuel (les trois premières colonnes)? S'agit-il d'un fichier ou utilisez-vous actuellement une sorte de structure de données? – askewchan
désolé, j'ai oublié de mentionner. il provient d'un fichier texte, mais est stocké dans un dataframe pandas. –