Je souhaite synchroniser les données avec un système de fichiers Hadoop. Ces données sont destinées à être utilisées en tant qu'entrée pour un travail MapReduce planifié.Synchronisez les données avec HBase/HDFS et utilisez-les comme entrée pour le travail MapReduce
Cet exemple pourrait expliquer plus:
Disons que j'ai un flux d'entrée des documents qui contiennent un tas de mots, ces mots sont nécessaires en entrée pour un emploi MapReduce WordCount. Ainsi, pour chaque document, tous les mots doivent être analysés et téléchargés sur le système de fichiers. Cependant, si le même document arrive à nouveau dans le flux d'entrée, je souhaite uniquement que les modifications soient téléchargées (ou supprimées) du système de fichiers.
Comment les données doivent-elles être stockées? devrais-je utiliser HDFS ou HBase? La quantité de données n'est pas très grande, peut-être quelques Go.
Est-il possible de démarrer des tâches MapReduce programmées avec une entrée HDFS et/ou HBase?