Les données OSM sont disponibles au format PBF. Il existe des bibliothèques spécialisées (telles que https://github.com/plasmap/geow pour l'analyse de ces données).Traitement des fichiers PBF (OSM) dans Spark
Je veux stocker ces données sur S3 et analyser les données dans un RDD dans le cadre d'un travail EMR.
Quel est un moyen simple d'y parvenir? Puis-je récupérer le fichier sur le noeud maître et le traiter localement? Si oui, est-ce que je créerais un RDD vide et y ajouterais que les événements de diffusion sont analysés du fichier d'entrée?