3

Nous devons lire les données des fichiers CSV et mapper deux fichiers par rapport à une colonne, puis transférer les données vers Cloud SQL à l'aide de Google Cloud Dataflow.Utilisation de Google Cloud Dataflow pour fusionner des fichiers plats et les importer dans Cloud SQL

Nous sommes capables de lire les données à partir de fichiers CSV mais nous sommes bloqués avec les étapes suivantes. S'il vous plaît me fournir des informations ou des liens sur les points suivants:

  1. Fusionnantes/se joindre à des fichiers plats à base d'une colonne ou état avec plusieurs colonnes
  2. copie fusionnée pcollection dans Сloud base de données SQL
+0

Pouvez-vous s'il vous plaît préciser ce que vous entendez par « carte deux fichiers par rapport à une colonne » - voulez-vous dire que vous voulez joindre deux fichiers CSV à base sur la valeur d'une colonne, puis vider le résultat à Cloud SQL? Un bref exemple d'entrée et de sortie attendue serait utile. – jkff

Répondre

2

Voici quelques conseils qui peuvent être utiles:

  • https://cloud.google.com/dataflow/model/joins décrit les façons de se joindre à son PCollection dans Dataflow
  • Il n'existe actuellement aucun récepteur intégré pour l'écriture sur CloudSQL, mais vous pouvez simplement traiter les résultats de votre jointure à l'aide d'un Par écrit qui écrit chaque enregistrement individuel ou par lots (rinçage périodique ou finishBundle()) - ou les besoins sont plus complexes que cela, envisager d'écrire un puits de CloudSQL - voir https://cloud.google.com/dataflow/model/sources-and-sinks
+1

Comment configurer l'instance Cloud SQL pour l'accès à partir de DataFlow? Avez-vous besoin d'utiliser le proxy? – sthomps