J'essaie d'interroger les données GitHub fournies par l'API ghtorrent en utilisant hadoop. comment puis-je injecter autant de données (4-5 To) dans HDFS? De plus, leurs bases de données sont en temps réel. Est-il possible de traiter des données en temps réel dans hadoop en utilisant des outils tels que cochon, ruche, hbase?Requête de données github en utilisant Hadoop
0
A
Répondre
1
Passez en revue la présentation this. Il a décrit la façon dont vous pouvez vous connecter à leur instance MySql ou MongoDb et récupérer des données. Fondamentalement, vous devez partager votre clé publique, ils vont ajouter cette clé à leur dépôt, puis vous pouvez SSH. Comme alternative, vous pouvez télécharger les décharges périodiques de this lien
Imp Lien:
Pour le traitement des données en temps réel, vous cannt le faire uisng Pig, Ruche . Ce sont des outils de traitement par lots. Envisagez d'utiliser Apache Spark.