Comment utiliser Kafka Connect avec des fichiers existants et nouveaux (dossier de surveillance)

Je voudrais utiliser Apache Kafka Connect pour traiter des fichiers sur un serveur Linux.Comment utiliser Kafka Connect avec des fichiers existants et nouveaux (dossier de surveillance)

Cas d'utilisation: J'ai un dossier contenant 2 millions de fichiers XML dans les sous-dossiers. Je veux les pousser tous vers Apache Kafka dans l'ordre de leur horodatage. Ensuite, je veux regarder le dossier et les sous-dossiers pour les nouveaux fichiers et aussi les pousser à Kafka dans l'ordre d'arrivée.

Est-ce possible? Ou dois-je séparer ce processus? Les plugins sont-ils disponibles?

Source

2017-03-02 Mike

Vérifiez le connecteur spooldir plug-in https://github.com/jcustenborder/kafka-connect-spooldir

Si ce n'est pas réalisable à vérifier de connectors.confluent.io pour voir d'autres plug-ins de la communauté.

Les garanties de commande seront basées sur la stratégie de partitionnement. Si vous avez besoin d'une commande totale, utilisez une partition.

Source

2017-03-04 01:18:37 dawsaw

Comment utiliser Kafka Connect avec des fichiers existants et nouveaux (dossier de surveillance)

Répondre

Questions connexes