2009-10-15 7 views
4

Où puis-je trouver l'architecture Pentaho Kettle? Je suis à la recherche d'un wiki, d'un document de conception, d'un blog, de tout ce qui peut donner un bon aperçu de la façon dont les choses fonctionnent. Cette question n'est pas destinée à des guides de démarrage "comment" spécifiques mais plutôt à une bonne vue sur la technologie et architecture.Où est l'architecture de Pentaho Kettle?

des questions spécifiques que j'ai sont:

  1. Comment fonctionne le flux de données entre les étapes? Il semblerait que tout est dans la mémoire - ai-je raison à ce sujet?
  2. Est-ce que ce qui précède est aussi vrai à propos de différentes transformations?
  3. Comment les Collect étapes sont-elles mises en œuvre?
  4. Des directives de performance spécifiques à son utilisation?
  5. La tâche FTP est-elle fiable et performante?
  6. D'autres "choses à faire et à ne pas faire"?

Répondre

0
  1. Comment les données circulent-elles entre les étapes? Il semblerait tout est dans la mémoire - ai-je raison à ce sujet?

Le flux de données est basé sur des lignes. Pour la transformation, chaque étape produit un «tuple» ou une rangée avec des champs. Chaque champ est une paire de données et une métadonnée. Chaque étape a une entrée et une sortie. Step prend des lignes à partir de l'entrée, modifie les lignes et envoie les lignes aux sorties. Pour la plupart des cas, toutes les informations sont en mémoire. Mais. Steps lit les données en mode streaming (comme jdbc ou autre) - donc typiquement en mémoire seulement une partie des données d'un flux.

  1. Est-ce que ce qui précède est également vrai à propos de différentes transformations?

Il existe un concept de 'travail' et un concept de 'transformation'. Tout ce qui est écrit ci-dessus est principalement vrai pour la transformation. La plupart du temps - signifie que la transformation peut contenir des étapes très différentes, certaines d'entre elles - comme les étapes de collecte - peuvent essayer de collecter toutes les données d'un flux. Jobs - est un moyen d'effectuer certaines actions qui ne suivent pas le concept de «streaming» - comme envoyer un email en cas de succès, charger des fichiers à partir du réseau, exécuter différentes transformations une par une.

  1. Comment les étapes Collect sont-elles implémentées?

Cela dépend uniquement de l'étape particulière. En règle générale, comme indiqué ci-dessus, les étapes de collecte peuvent tenter de collecter toutes les données du flux, ce qui peut être une raison des exceptions OutOfMemory. Si les données sont trop volumineuses - envisagez de remplacer les étapes de collecte par une approche différente des données de traitement (par exemple, utilisez des étapes qui ne collectent pas toutes les données).

  1. Des consignes de performance spécifiques pour l'utiliser?

Beaucoup de. Dépend de la transformation des étapes est constitué, les sources de données utilisées. J'essaierais de parler du scénario exact plutôt que des directives générales.

  1. La tâche ftp est-elle fiable et performante?

Pour autant que je me souviens ftp est soutenu par la mise en œuvre EdtFTP, et il peut y avoir quelques problèmes avec les étapes que comme - certains paramètres non enregistrés, ou http-ftp proxy ne fonctionne pas ou autre. Je dirais que Kettle en général est fiable et perfomant - mais pour certains scénarios pas couramment utilisés - il peut ne pas être ainsi.

  1. Autre (e) "À faire et à ne pas faire"?

Je dirais que le Do - est de comprendre un outil avant de commencer l'utilisation de manière intensive. Comme mentionné dans cette discussion - il y a quelques documents sur l'intégration de données Kettle/Pentaho, vous pouvez essayer de le rechercher sur des sites spécifiques.

L'un des avantages de Pentaho Data Integration/Kettle est la communauté relativement grande que vous pouvez demander pour des aspects spécifiques.

http://forums.pentaho.com/

https://help.pentaho.com/Documentation