2017-09-27 5 views
0

J'ai le chemin d'accès source et le chemin de destination dans HDFS.Our UpStream place les fichiers dans le chemin source et nous vérifions les nouveaux fichiers ajoutés dans le chemin source s'il y a chemin source vers le chemin de destination.Pouvons-nous utiliser Apache Kafka comme un système pour l'observation de fichiers

Pour le moment, nous utilisons un script shell. Mais je veux utiliser Kafka entre les deux. J'ai étudié à ce sujet, trouvé que des connecteurs d'évier HDFS. Il n'y a pas de connecteurs source pour HDFS.

Ma Question est peut-on utiliser Kafka ici et comment?

Répondre

0

Pour ce cas d'utilisation, je ne pense pas que vous ayez besoin de kafka. Il existe différentes façons de le faire, d'une façon par exemple, vous pouvez utiliser l'interface watcher Zookeeper qui getters déclenché sur les événements surveillés et programmation le feu la copie à Hadoop de votre programme

Comme alternative, Hadoop 2.6 introduit DFSInotifyEventInputStream que vous peut utiliser pour cela. Vous pouvez en obtenir une instance à partir de HdfsAdmin et ensuite appeler .take() ou .poll() pour obtenir tout l'événement et en fonction de l'événement, vous pouvez agir