Malheureusement, l'image de lancement de Dataproc était construit sans support Snappy. J'ai ouvert un bug pour corriger ceci pour l'image suivante.
Une solution:
d'abord créer un petit script shell qui installe correctement Snappy et le support de bibliothèque native pour elle. Pour cela, nous utiliserons les mêmes bibliothèques natives qu'utilise bdutil. J'ai appelé mon script setup-snappy.sh
:
#!/bin/bash
pushd "$(mktemp -d)"
apt-get install -q -y libsnappy1
wget https://storage.googleapis.com/hadoop-native-dist/Hadoop_2.7.1-Linux-amd64-64.tar.gz
tar zxvf Hadoop_2.7.1-Linux-amd64-64.tar.gz -C /usr/lib/hadoop/
Copiez le nouveau script shell dans un seau GCS que vous possédez. Pour des fins de démonstration, supposons que le godet est dataproc-actions
:
gsutil cp ./setup-snappy.sh gs://dataproc-actions/setup-snappy.sh
Lors du démarrage d'un cluster, spécifiez les actions d'initialisation:
gcloud beta dataproc clusters create --initialization-actions gs://dataproc-actions/setup-snappy.sh mycluster
Merci Angus, je peux confirmer cela a fonctionné pour nous! D'ailleurs, votre dernière commande a une petite faute de frappe, elle devrait être gcloud beta clusters dataproc créer --initialization-actions gs: //dataproc-actions/setup-snappy.sh mycluster' – aeneaswiener
Merci d'avoir signalé cela. Mise à jour de la commande –