J'essaie de charger des gigaoctets de données de Google Cloud Storage ou de Google BigQuery dans des données pandas afin que je puisse tenter d'exécuter OneClassSVM et Isolation Forest de scikit (ou toute autre classification unaire ou PU). J'ai donc essayé pandas-gbq
mais de tenter d'exécuterComment charger des gigaoctets de données de Google Cloud Storage dans une base de données pandas?
pd.read_gbq(query, 'my-super-project', dialect='standard')
cause ma machine à elle sigkill quand il est seulement 30% complet. Et je ne peux pas le charger localement, et ma machine n'a pas assez d'espace et ne semble pas assez efficace.
J'ai aussi essayé
from google.cloud import storage
client = storage.Client()
bucket = client.get_bucket('bucket-id-here')
# Then do other things...
blob = bucket.get_blob('remote/path/to/file.txt')
print(blob.download_as_string())
sur je peux charger 1/10 ou 1/5 de mes données disponibles, mais ma machine me dit finalement qu'il a manqué de mémoire.
TLDR: Est-il possible que je peux exécuter mon code personnalisé (avec numpy, pandas géants, et même tensorflow) dans le nuage ou un supercalculateur Farway où je peux facilement et charger efficacement les données de Google Cloud Storage ou Google BigQuery?
Malheureusement, je ne peux pas trouver une fonction 'read_gbq()', si vous téléchargez le fichier local, vous pouvez essayer [dask.dataframe] (http://dask.pydata.org/en/latest/dataframe .html), qui est syntaxiquement similaire aux pandas, mais effectue des manipulations hors-noyau, donc la mémoire ne devrait pas être un problème. –
@DavidDuffrin Je ne peux pas télécharger parce que ma machine n'a pas assez d'espace disque. – Flair
Pourriez-vous télécharger le (s) fichier (s) vers [EMR AWS] (https://aws.amazon.com/emr/) et manipuler les données avec quelque chose comme [PySpark] (https://spark.apache.org/docs /0.9.0/python-programming-guide.html)? J'ai déjà utilisé Hadoop pour des applications "Big Data" similaires. –