Je tente le Kaggle Titanic Example en utilisant SparkML et Scala. Je tente de charger le premier fichier de formation, mais je suis en cours d'exécution dans une étrange erreur:Chargement CSV en étincelle
java.io.IOException: Could not read footer: java.lang.RuntimeException: file:/Users/jake/Development/titanicExample/src/main/resources/data/titanic/train.csv is not a Parquet file. expected magic number at tail [80, 65, 82, 49] but found [44, 81, 13, 10]
Le fichier est un .csv
donc je ne sais pas pourquoi son attendant un fichier parquet.
Voici mon code:
object App {
val spark = SparkSession
.builder()
.master("local[*]")
.appName("liveOrDie")
.getOrCreate()
def main(args: Array[String]) {
val rawTrainingData = spark.read
.option("header", "true")
.option("delimiter", ",")
.option("inferSchema", "true")
.load("src/main/resources/data/titanic/train.csv")
// rawTrainingData.show()
}
}
Ce n'était pas ma suggestion, le code que vous avez écrit n'a aucun sens puisque 'load' ne renvoie pas un' DataFrameReader' –
De toute façon, je supprimer le commentaire dirigé vers moi et ensuite accepter cela comme la réponse si d'autres utilisateurs SO peuvent apprendre de votre expérience. –
La résolution de votre problème de dépendance a également permis au code que vous avez écrit dans votre question initiale de fonctionner ou était-ce l'une des autres solutions? Veuillez décrire a) ce qui doit être corrigé et b) quel code vous utilisez pour charger les csv maintenant. –