J'essaie d'utiliser le fichier comme producteur de kafka. Le fichier source augmente continuellement (disons 20 enregistrements/lignes par seconde). Ci-dessous un poste similaire à mon problème:Comment utiliser un fichier en croissance en tant que producteur Apache Kafka et lire uniquement les données nouvellement ajoutées
How to write a file to Kafka Producer
Mais dans ce cas, est lu le dossier entier et ajouté au sujet Kafka chaque fois qu'une nouvelle ligne est insérée dans le fichier. Je souhaite que seules les lignes nouvellement ajoutées soient envoyées au sujet (si le fichier contient déjà 10 lignes et que 4 autres lignes y sont ajoutées, seules ces 4 lignes doivent être envoyées au sujet).
Existe-t-il un moyen d'y parvenir?
Autres solutions essayées:
Apache en utilisant le type flume source comme 'spooldir'. Mais cela ne servait à rien car il lit les données de nouveaux fichiers ajoutés au répertoire et non lorsque les données sont ajoutées à un fichier déjà lu.
Aussi nous avons essayé avec flume type de source comme 'exec' et commande comme 'queue -F/chemin/file-name'. Cela aussi ne semble pas fonctionner.
Suggestions pour l'utilisation de tout autre outil est également accueilli comme mon objectif est de lire les données du fichier en temps réel (ie. J'ai besoin des données dès qu'il est inséré dans le fichier).
Avez-vous essayé [FileSource Connector] (https://docs.confluent.io/current/connect/connect-filestream/filestream_connector.html) de Kafka Connect? –
Merci Chin Huang. Je n'étais pas au courant du connecteur. Ca a marché :) – Sindhu