Récemment je voulais faire Spark machine Learning Lab de Summit Spark 2016. Vidéo de formation est here et bloc-notes est disponible exportée here.Comment lire plusieurs fichiers Excel et les concaténer en un seul Apache Spark DataFrame?
L'ensemble de données utilisé dans le laboratoire peut être téléchargé à partir UCI Machine Learning Repository. Il contient un ensemble de lectures de divers capteurs dans une centrale électrique alimentée au gaz. Le format est un fichier xlsx avec cinq feuilles.
Pour utiliser les données dans le laboratoire, j'avais besoin de lire toutes les feuilles du fichier Excel et de les concaténer en un seul Spark DataFrame. Pendant la formation, ils utilisent Databricks Notebook mais j'utilisais IntelliJ IDEA avec Scala et j'évaluais le code dans la console.
La première étape consistait à enregistrer toutes les feuilles Excel dans des fichiers xlsx distincts nommés sheet1.xlxs
, sheet2.xlsx
, etc. et de les placer dans le répertoire sheets
.
Comment lire tous les fichiers Excel et les concaténer en un seul Apache Spark DataFrame?