0

J'ai un scénario où je suis aller chercher des données d'une base de données (postgres) et le chargement des données dans une table dans une autre base de données (Redshift)Pentaho Kettle - Récupération des données de différentes bases de données

Y at-il de toute façon dans Kettle planifier ce travail?

Son simple insert into redshift select * from postgres

+0

Entrée de table (connexion aux postgres) -> Sortie de table (connexion à redshift). Mais ajustez les types de données entre s'il y a besoin. – simar

+0

Récupère le pilote jdbc pour redshift amazon et copie dans $ KETTLE_HOME/lib – simar

Répondre

1

Utilisation d'une table étape de sortie peut être très lent comme Redshift est optimisée pour les inserts en vrac, et non ligne par ligne inserts. AFAIK, il n'y a pas d'étapes/plugins dans Kettle pour les insertions en vrac dans Redshift. Ce que vous pouvez faire, est de faire un script dans une étape Shell que:

  1. décharges données de Postgres au fichier
  2. copie les données à S3: https://anotherreeshu.wordpress.com/2015/11/30/loading-data-to-aws-s3-bucket-pentaho-data-integration/
  3. insère les données de S3 à Redshift: https://anotherreeshu.wordpress.com/2015/12/11/loading-data-from-s3-to-redshift-pentaho-data-integration/