1

Avez-vous besoin d'intégrer des formats Excel et autres formats propriétaires à l'aide de colle ou de permettre à la colle de travailler sur votre seau s3 pour utiliser ces formats de données dans votre Data Lake?AWS Data Lake Ingest

J'ai parcouru le document "Data Lake Foundation on the AWS Cloud" et je me suis gratté la tête pour obtenir des données dans le lac. J'ai un fournisseur de données avec un grand ensemble de données stockées sur leur système en tant que fichiers Excel et d'accès. En fonction du flux de processus, ils chargeraient les données dans le compartiment s3 de soumission, ce qui déclencherait une série d'actions, mais il n'y aurait pas d'etl des données dans un format qui fonctionnerait avec les autres outils.

L'utilisation de ces fichiers nécessite-t-elle d'utiliser de la colle sur les données soumises dans le compartiment ou existe-t-il un autre moyen de rendre ces données disponibles pour d'autres outils tels que Athena et Redshift?

Nous vous remercions de la lumière que vous pouvez apporter sur ce sujet.

-Guido

Répondre

1

Je ne vois pas qui peut prendre Excel les données directement aux données du lac. Vous devrez peut-être convertir en CSV/TSV/Json ou d'autres formats avant de charger dans Data Lake.

Formats pris en charge par Redshift Spectrum:

http://docs.aws.amazon.com/redshift/latest/dg/c-spectrum-data-files.html - Encore une fois, je ne vois pas Excel à partir de maintenant.

Athena Formats de fichier:

http://docs.aws.amazon.com/athena/latest/ug/supported-formats.html - Je ne vois pas Excel également pas pris en charge ici.

Vous devez télécharger les fichiers sur S3 soit pour utiliser Athena ou Redshift Spectrum ou même le stockage Redshift lui-même.

à S3 Télécharger des fichiers:

Si vous avez des fichiers plus gros, vous devez utiliser le téléchargement S3 multipart pour télécharger plus rapidement. Si vous voulez plus de vitesse, vous devez utiliser l'accélérateur S3 pour télécharger vos fichiers.

Interrogation Big Data avec Athena:

Vous pouvez créer des tables externes avec Athena à partir d'emplacements S3. Une fois que vous avez créé des tables externes, utilisez la référence Athena Sql pour interroger vos données.

http://docs.aws.amazon.com/athena/latest/ug/language-reference.html

Interrogation Big Data avec Redshift Spectrum:

similaires à Athena, vous pouvez créer des tables externes avec Redshift. Commencez à interroger ces tables et obtenez les résultats sur Redshift. Redshift a beaucoup d'outils commerciaux, j'utilise SQL Workbench. C'est un logiciel open source gratuit et solide, soutenu par AWS.

WorkBench SQL: http://www.sql-workbench.net/

Connexion de votre WorkBench à Redshift: http://docs.aws.amazon.com/redshift/latest/mgmt/connecting-using-workbench.html

Copie de données à Redshift:

Aussi, si vous voulez prendre le stockage de données à Redshift, vous pouvez utiliser la commande de copie pour tirer les données de S3 et son est chargé à Redshift.

commande Copier Exemples:

http://docs.aws.amazon.com/redshift/latest/dg/r_COPY_command_examples.html

Redshift Taille de cluster et le nombre de nœuds:

Avant de créer Redshift cluster, vérifiez la taille requise et le nombre de nœuds nécessaires. Plus de nombre de noeuds obtient la requête parallèlement en cours d'exécution. Un facteur plus important est la qualité de la distribution de vos données. (Clé de distribution et touches de tri)

J'ai une très bonne expérience avec Redshift, le fait d'être à la vitesse peut prendre quelque temps.

Espérons que ça aide.

+0

Merci pour les informations détaillées. – GuidoS