Déplacement de données en cluster de HDFS vers Hive

J'ai expérimenté avec Mahout dans la VM de démonstration Cloudera et j'ai réussi à regrouper les données de contrôle synthétique de l'échantillon (https://cwiki.apache.org/MAHOUT/clustering-of-synthetic-control -data.html) en utilisant l'algorithme k-Means. J'ai utilisé ClusterDumper et peut voir la sortie de Mahout, mais maintenant je veux mettre la sortie dans une table Hive. Comment ferais-je cela?Déplacement de données en cluster de HDFS vers Hive

Source

2012-07-18 Alison

Il n'y a pas d'intégration directe. Votre meilleur pari est de modifier ClusterDumper pour produire une sorte de représentation textuelle qui peut être importée dans Hive sous forme de données tabulaires.

Source

2012-07-19 03:14:31

Créez une table externe dans Hive, qui doit pointer vers le chemin o/p de Mahout.

Source

2012-07-19 05:05:22 user1135720

Déplacement de données en cluster de HDFS vers Hive

Répondre

Questions connexes