2017-03-02 2 views
1

Je voudrais utiliser Apache Kafka Connect pour traiter des fichiers sur un serveur Linux.Comment utiliser Kafka Connect avec des fichiers existants et nouveaux (dossier de surveillance)

Cas d'utilisation: J'ai un dossier contenant 2 millions de fichiers XML dans les sous-dossiers. Je veux les pousser tous vers Apache Kafka dans l'ordre de leur horodatage. Ensuite, je veux regarder le dossier et les sous-dossiers pour les nouveaux fichiers et aussi les pousser à Kafka dans l'ordre d'arrivée.

Est-ce possible? Ou dois-je séparer ce processus? Les plugins sont-ils disponibles?

Répondre

4

Vérifiez le connecteur spooldir plug-in https://github.com/jcustenborder/kafka-connect-spooldir

Si ce n'est pas réalisable à vérifier de connectors.confluent.io pour voir d'autres plug-ins de la communauté.

Les garanties de commande seront basées sur la stratégie de partitionnement. Si vous avez besoin d'une commande totale, utilisez une partition.