2017-08-24 12 views
0

J'essaie d'interroger les données GitHub fournies par l'API ghtorrent en utilisant hadoop. comment puis-je injecter autant de données (4-5 To) dans HDFS? De plus, leurs bases de données sont en temps réel. Est-il possible de traiter des données en temps réel dans hadoop en utilisant des outils tels que cochon, ruche, hbase?Requête de données github en utilisant Hadoop

Répondre

1

Passez en revue la présentation this. Il a décrit la façon dont vous pouvez vous connecter à leur instance MySql ou MongoDb et récupérer des données. Fondamentalement, vous devez partager votre clé publique, ils vont ajouter cette clé à leur dépôt, puis vous pouvez SSH. Comme alternative, vous pouvez télécharger les décharges périodiques de this lien

Imp Lien:

Pour le traitement des données en temps réel, vous cannt le faire uisng Pig, Ruche . Ce sont des outils de traitement par lots. Envisagez d'utiliser Apache Spark.