2015-09-30 2 views
3

J'essaie d'utiliser une instance d'un cluster Dataproc pour importer des fichiers CSV volumineux dans HDFS, puis de les exporter au format SequenceFile, puis d'importer la dernière version dans Bigtable comme décrit ici : https://cloud.google.com/bigtable/docs/exporting-importingUtilisation de Google Dataproc pour importer des données CSV dans Bigtable

J'ai initialement importé les fichiers CSV en tant que table externe dans Hive, puis les ai exportés en les insérant dans une table sauvegardée par SequenceFile.

Cependant (? Probablement, car il semble Dataproc navires avec Hive 1.0), je faisais face à l'erreur d'exception cast mentionné ici: Bigtable import error

Je ne peux pas sembler obtenir shell HBase ou ZooKeeper et en cours d'exécution sur le maître de Dataproc VM, donc je ne peux pas exécuter un travail d'exportation simple à partir de CLI.

  1. Existe-t-il une autre façon d'exporter des fichiers de séquence compatibles avec bigtable à partir de dataproc?

  2. Quelle est la configuration à configurer pour que HBase et ZooKeeper s'exécutent à partir du noeud maître Dataproc VM?

Répondre

2

Les instructions d'importation auxquelles vous avez lié sont des instructions d'importation de données à partir d'un déploiement HBase existant.

Si le format d'entrée avec lequel vous travaillez est CSV, la création de SequenceFiles est probablement une étape inutile. Que diriez-vous d'écrire un Hadoop MapReduce pour traiter les fichiers CSV et écrire directement dans Cloud Bigtable? Un flux de données serait également un bon ajustement ici.

Jetez un oeil à des échantillons ici: https://github.com/GoogleCloudPlatform/cloud-bigtable-examples/tree/master/java

+0

thx. J'ai fini par comprendre cela et j'ai commencé à travailler sur un travail de MR comme mentionné. Cela me dérange bien que Dataproc ne soit pas livré avec le support de Bigtable intégré (j'ai dû installer les libs et installer moi-même HBase). De plus, j'ai rencontré plusieurs problèmes liés au zookeeper tout en essayant de soumettre des tâches hadoop localement ... Est-ce que tout plan pour fusionner dataproc avec bdutil bientôt? dois-je utiliser le dernier seulement pour le moment? – mssch

+0

Je ne peux pas parler d'échéanciers précis pour le moment, mais c'est certainement un objectif d'intégrer toutes les composantes de notre écosystème de Big Data, et ce, avec un minimum de friction entre développeurs. Restez à l'écoute! – Max

+0

Une mise à jour de Hive for Dataproc est en cours. Elle devrait être livrée avec Dataproc dans les prochaines semaines. – James