Je ne vois pas qui peut prendre Excel les données directement aux données du lac. Vous devrez peut-être convertir en CSV/TSV/Json ou d'autres formats avant de charger dans Data Lake.
Formats pris en charge par Redshift Spectrum:
http://docs.aws.amazon.com/redshift/latest/dg/c-spectrum-data-files.html - Encore une fois, je ne vois pas Excel à partir de maintenant.
Athena Formats de fichier:
http://docs.aws.amazon.com/athena/latest/ug/supported-formats.html - Je ne vois pas Excel également pas pris en charge ici.
Vous devez télécharger les fichiers sur S3 soit pour utiliser Athena ou Redshift Spectrum ou même le stockage Redshift lui-même.
à S3 Télécharger des fichiers:
Si vous avez des fichiers plus gros, vous devez utiliser le téléchargement S3 multipart pour télécharger plus rapidement. Si vous voulez plus de vitesse, vous devez utiliser l'accélérateur S3 pour télécharger vos fichiers.
Interrogation Big Data avec Athena:
Vous pouvez créer des tables externes avec Athena à partir d'emplacements S3. Une fois que vous avez créé des tables externes, utilisez la référence Athena Sql pour interroger vos données.
http://docs.aws.amazon.com/athena/latest/ug/language-reference.html
Interrogation Big Data avec Redshift Spectrum:
similaires à Athena, vous pouvez créer des tables externes avec Redshift. Commencez à interroger ces tables et obtenez les résultats sur Redshift. Redshift a beaucoup d'outils commerciaux, j'utilise SQL Workbench. C'est un logiciel open source gratuit et solide, soutenu par AWS.
WorkBench SQL: http://www.sql-workbench.net/
Connexion de votre WorkBench à Redshift: http://docs.aws.amazon.com/redshift/latest/mgmt/connecting-using-workbench.html
Copie de données à Redshift:
Aussi, si vous voulez prendre le stockage de données à Redshift, vous pouvez utiliser la commande de copie pour tirer les données de S3 et son est chargé à Redshift.
commande Copier Exemples:
http://docs.aws.amazon.com/redshift/latest/dg/r_COPY_command_examples.html
Redshift Taille de cluster et le nombre de nœuds:
Avant de créer Redshift cluster, vérifiez la taille requise et le nombre de nœuds nécessaires. Plus de nombre de noeuds obtient la requête parallèlement en cours d'exécution. Un facteur plus important est la qualité de la distribution de vos données. (Clé de distribution et touches de tri)
J'ai une très bonne expérience avec Redshift, le fait d'être à la vitesse peut prendre quelque temps.
Espérons que ça aide.
Merci pour les informations détaillées. – GuidoS