2017-10-04 4 views
0

Je suis nouveau à l'aide de l'usine de données et avoir deux pipelines.usine de données consomment des ensembles de données avec différents intervalles de temps

  • Pipeline A contient une activité Un qui fonctionne une fois par 30 minutes et génère un dataSet. L'activité A est une activité de copie qui génère un fichier .csv dans le stockage de données.

  • Pipeline B contient une activité B qui fonctionne une fois par 24 hours et a besoin dataSet.

  • je aurais pu éviter la consommation de Dataset A Pipeline B dans la représentation de l'usine de données .. mais je crains que Pipeline A pourrait commencer à courir et corrompre l'ensemble de données alors que Pipeline B est actif et fonctionnement.

Comment puis-je faire Pipeline B A consommer Dataset?

  • La seule façon que je pouvais penser à la génération de ce recrée l'Activité A dans Pipeline B et refaire la même tâche que Pipeline A :(

Ma question est: Est-il comme je peux le faire sans dupliquer l'activité dans la deuxième canalisation?

Répondre

0

Je présume que cela est ADFv1?

cela étant le cas , la dépendance complexe entre les activités est assez difficile à réaliser. La plupart du temps, ce qui est pris en charge dans v1 est "l'activité A produit l'ensemble de données A, l'activité B consomme l'ensemble de données A", donc l'activité B ne commencera pas tant que l'activité A ne sera pas terminée. Notez que ces activités ne doivent pas être dans le même pipeline. Vous ne dites pas ce que vos activités font, mais en supposant que l'activité A copie quelque chose dans un dossier de magasin de données, puis l'activité B copie tout dans ce dossier ailleurs; Je suis assez sûr que vous pouvez simplement définir l'activité B avec le jeu de données A comme entrée et B ne pas courir jusqu'à ce que les tranches pertinentes soient disponibles - voir Model datasets with different frequencies. Toutefois, si l'activité A met à jour quelque chose dans le magasin de données que l'activité B consomme, rien n'interdit à l'activité A d'exécuter sa tranche suivante même si l'activité B est déjà en cours d'exécution. Dans ce scénario, il peut être utile de réarchiver votre solution pour que l'activité A vide simplement les jeux de données dans un dossier intermédiaire et que l'activité B les consomme toutes pour créer un ensemble de données fusionné. En conclusion, avec la version preview d'ADFv2 maintenant disponible, il y a beaucoup plus d'options pour le branchement et le contrôle du flux, il y a même la possibilité d'exécuter des packages SSIS .... peut être des options pour une solution plus propre :)