2012-07-18 4 views
0

J'ai expérimenté avec Mahout dans la VM de démonstration Cloudera et j'ai réussi à regrouper les données de contrôle synthétique de l'échantillon (https://cwiki.apache.org/MAHOUT/clustering-of-synthetic-control -data.html) en utilisant l'algorithme k-Means. J'ai utilisé ClusterDumper et peut voir la sortie de Mahout, mais maintenant je veux mettre la sortie dans une table Hive. Comment ferais-je cela?Déplacement de données en cluster de HDFS vers Hive

Répondre

1

Il n'y a pas d'intégration directe. Votre meilleur pari est de modifier ClusterDumper pour produire une sorte de représentation textuelle qui peut être importée dans Hive sous forme de données tabulaires.

0

Créez une table externe dans Hive, qui doit pointer vers le chemin o/p de Mahout.

Questions connexes