J'utilise Azure Data Lake Store (ADLS), ciblé par un pipeline Azure Data Factory (ADF) qui lit à partir de Blob Storage et écrit dans ADLS. Au cours de l'exécution, je remarque qu'il existe un dossier créé dans l'ADLS de sortie qui n'existe pas dans les données sources. Le dossier contient un GUID pour un nom et de nombreux fichiers, ainsi que des GUID. Le dossier est temporaire et après environ 30 secondes il disparaît.Azure Data Lake Storage et Data Factory - dossiers et fichiers GUID temporaires
Est-ce que cela fait partie de l'indexation des métadonnées ADLS? Est-ce quelque chose utilisé par ADF pendant le traitement? Bien qu'il apparaisse dans l'Explorateur de données du portail, est-il visible dans l'API? Je crains que cela ne crée des problèmes, même si c'est une structure temporaire.
Un aperçu apprécié - un Google a peu augmenté.
Merci Paul - J'ai creusé plus profondément et testé avec une charge élevée et moi aussi je vois des fichiers temporaires qui ne sont pas nettoyés. Je suis explicite lorsque cela est possible, mais cela n'est pas possible avec un travail Azure Data Factory (sans créer d'activité personnalisée). –
En effet, j'ai envisagé d'écrire moi-même une activité nettoyeuse personnalisée plusieurs fois pour gérer cela. Comme je ne suis plus seul, je l'ai créé en tant qu'article de commentaires vocaux, s'il vous plaît, votez. Merci https://feedback.azure.com/forums/327234-data-lake/suggestions/19799794-orphaned-temporary-file-auto-clean-up-operation –
J'ai aussi eu exactement la même pensée (pour créer un activité de nettoyage) mais construit la solution idempotent à la place. Peut-être qu'une petite activité personnalisée de nettoyage qui nuke juste des dossiers de GUID serait idéale ... –