J'essaie d'utiliser une instance d'un cluster Dataproc pour importer des fichiers CSV volumineux dans HDFS, puis de les exporter au format SequenceFile, puis d'importer la dernière version dans Bigtable comme décrit ici : https://cloud.google.com/bigtable/docs/exporting-importingUtilisation de Google Dataproc pour importer des données CSV dans Bigtable
J'ai initialement importé les fichiers CSV en tant que table externe dans Hive, puis les ai exportés en les insérant dans une table sauvegardée par SequenceFile.
Cependant (? Probablement, car il semble Dataproc navires avec Hive 1.0), je faisais face à l'erreur d'exception cast mentionné ici: Bigtable import error
Je ne peux pas sembler obtenir shell HBase ou ZooKeeper et en cours d'exécution sur le maître de Dataproc VM, donc je ne peux pas exécuter un travail d'exportation simple à partir de CLI.
Existe-t-il une autre façon d'exporter des fichiers de séquence compatibles avec bigtable à partir de dataproc?
Quelle est la configuration à configurer pour que HBase et ZooKeeper s'exécutent à partir du noeud maître Dataproc VM?
thx. J'ai fini par comprendre cela et j'ai commencé à travailler sur un travail de MR comme mentionné. Cela me dérange bien que Dataproc ne soit pas livré avec le support de Bigtable intégré (j'ai dû installer les libs et installer moi-même HBase). De plus, j'ai rencontré plusieurs problèmes liés au zookeeper tout en essayant de soumettre des tâches hadoop localement ... Est-ce que tout plan pour fusionner dataproc avec bdutil bientôt? dois-je utiliser le dernier seulement pour le moment? – mssch
Je ne peux pas parler d'échéanciers précis pour le moment, mais c'est certainement un objectif d'intégrer toutes les composantes de notre écosystème de Big Data, et ce, avec un minimum de friction entre développeurs. Restez à l'écoute! – Max
Une mise à jour de Hive for Dataproc est en cours. Elle devrait être livrée avec Dataproc dans les prochaines semaines. – James