J'ai des fichiers journaux dans différents répertoires en fonction de la date de création du fichier journal.Combinaison des journaux de plusieurs répertoires dans Spark
Par exemple
> /mypath/2017/01/20/...
.
.
.
> /mypath/2017/02/13/...
> /mypath/2017/02/14/...
Je voudrais combiner tous ces fichiers journaux en un seul RDD unique à l'aide pyspark pour que je puisse faire les agrégats sur ce fichier maître. Jusqu'à la date, j'ai pris des répertoires individuels, appelés sqlContext et utilisé Union pour joindre tout le fichier journal pour des dates spécifiques.
DF1 = (sqlContext.read.schema(schema).json("/mypath/2017/02/13")).union(sqlContext.read.schema(schema).json("/mypath/2017/02/14"))
est-il un moyen facile d'obtenir le maître RDD en spécifiant les fichiers journaux de plage de dates? (Je vais de 2017/01/20 à 2017/02/14)
Je suis assez nouveau pour étinceler, s'il vous plaît corrigez-moi si je me trompais à tout moment.
Aussi, si je veux filtrer à partir sur une colonne "Type" après que je rejoins tous ces journaux (disons DF1). Quel serait le processus optimal pour le faire? (J'utilise habituellement DF1.filter()). Y a-t-il un autre moyen efficace? – SpaceOddity
sqlContext.read.schema (schéma) .json ("/ mypath/2017/02/[13-14]")) ne fonctionne pas. Il dit "Modèle de fichier illégal: plage de caractères illégale près de l'index 4" – SpaceOddity