Veuillez excuser à l'avance s'il s'agit d'une question en double - J'ai cherché stackoverflow mais je n'ai pas trouvé cette question posée de cette façon. Je cours Python 2.7 sur mon ordinateur et depuis que j'ai commencé à travailler avec un ensemble de données de rangée de 8 million; J'ai reçu un message d'erreur indiquant que mon ordinateur manque de mémoire. Je reçois ce message dès que je télécharge l'ensemble de données _ Je ne commence même pas à le traiter.Python plante l'ordinateur en raison de la faible mémoire
Il a effectivement écrasé mon ordinateur entier plusieurs fois. Comme c'est mon ordinateur de travail, j'ai demandé à l'informatique de nettoyer ma mémoire virtuelle, d'augmenter la mémoire disponible et même de nettoyer ma HD. Mais comme prévu, je suis toujours en train de résoudre ce problème. Dans un cadre personnel, j'ai utilisé le bloc-notes python jupyter sur AWS pour résoudre ce problème - mais je n'ai pas cette option au travail.
Que recommanderiez-vous? Est-ce que pyspark est la meilleure façon de faire? Je suis nouveau à étincelle, y at-il quelque chose de semblable à cahier jupyter pour l'étincelle?
Merci beaucoup
vous pouvez commencer downsampling votre ensemble de données, le choix d'un sous-ensemble aléatoire de lignes – Alessandro
Ou vous pourriez traiter vos données en morceaux, supprimer les colonnes inutiles de chaque ligne, etc. Sans connaître les détails, il pourrait y avoir beaucoup de solutions à ce problème sans trouver un nouvel outil. – wflynny
Je ne peux malheureusement pas sous-échantillonner les données - l'exigence est réelle - les 8 millions de lignes sont déjà un morceau - J'ai plusieurs ensembles de données comme celui que je voudrais fusionner; J'essaye d'établir un voyage de client et pour cela j'ai besoin de tout l'histoire de client - chaque transaction – jeangelj