2016-11-23 1 views
2

Les données OSM sont disponibles au format PBF. Il existe des bibliothèques spécialisées (telles que https://github.com/plasmap/geow pour l'analyse de ces données).Traitement des fichiers PBF (OSM) dans Spark

Je veux stocker ces données sur S3 et analyser les données dans un RDD dans le cadre d'un travail EMR.

Quel est un moyen simple d'y parvenir? Puis-je récupérer le fichier sur le noeud maître et le traiter localement? Si oui, est-ce que je créerais un RDD vide et y ajouterais que les événements de diffusion sont analysés du fichier d'entrée?

Répondre

1

Une solution consisterait à ignorer les fonctions PBF. Une représentation Spark-friendly est Parquet. Dans this blog post, il est montré comment convertir les PBF en Parquets et comment charger les données dans Spark.