2017-10-10 14 views
0

J'essaie donc de charger un fichier CSV dans Beeline pour une analyse simple et pour commencer avec la suite hadoop. J'utilise les commandes suivantes CREATE EXTERNAL TABLE IF NOT EXISTS babies( PseudoID_voorkeur INT, OpnameID INT, Specialisme VARCHAR(32), Opnamecategorie VARCHAR(32), OpnamecategorieOmschrijving VARCHAR(32), OpnametypeID VARCHAR(32), OpnametypeOmschrijving VARCHAR(32), OpnamesubtypeID VARCHAR(32), BehandelcategorieID_OPN VARCHAR(32), BehandelcategorieOmschr_OPN VARCHAR(32), BehandelcodeID VARCHAR(32), BehandelcodeOmschrijving VARCHAR(32), OpnamelocatieID VARCHAR(32), OpnamelocatieOmschrijving VARCHAR(32), AfdelingID_OPN VARCHAR(32), AfdelingOmschrijving_OPN VARCHAR(32), Behandelaar VARCHAR(32), Aanmelder VARCHAR(32), HerkomstID VARCHAR(32), HerkomstOmschrijving VARCHAR(32), Spoed_OPN INT, ScreeningstatusID_OPN VARCHAR(32), ScreeningstatusOmschrijving_OPN VARCHAR(32), OpnamestatusID_OPN INT, OpnamestatusOmschrijving_OPN VARCHAR(32), EersteOpname_OPN INT, GebruikOK_OPN INT, GewensteTermijn_OPN VARCHAR(32), Inschrijfdatum_OPN STRING, Wachtlijstdatum_OPN STRING, UitersteDatum_OPN STRING, GeplandeOpnamedatum_OPN STRING, GeplandeOpnametijd_OPN VARCHAR(32), GeplandeOntslagdatum_OPN STRING, GeplandeOntslagtijd_OPN VARCHAR(32), Oproepdatum_OPN STRING, Opnamedatum_OPN STRING, Opnametijd_OPN VARCHAR(32), Ontslagdatum_OPN STRING, Ontslagtijd_OPN VARCHAR(32), Annuleringsdatum_OPN STRING, Factureringsdatum_OPN STRING, Mutatiedatum_OPN STRING, Mutatietijd_OPN VARCHAR(32), VerwachteOpnameduur_OPN VARCHAR(32), BestemmingID VARCHAR(32), BestemmingOmschrijving VARCHAR(32), PseudoID_voorkeur1 INT, Aanvraagnummer INT, Broncode VARCHAR(32), Labgroep_naam VARCHAR(32), Labgroep_code INT, Afnamedatum STRING, Afnametijd VARCHAR(32), Afdeling VARCHAR(32), Aanvrager VARCHAR(32), Bepaling VARCHAR(32), Bepaling_omschrijving VARCHAR(32), Bepaling_materiaal VARCHAR(32), Uitslag_waarde VARCHAR(32), Uitslag_eenheid VARCHAR(32), Uitslag_grenswaarde_onder DOUBLE, Uitslag_grenswaarde_boven DOUBLE, Uitslag_grenswaarde_vlag VARCHAR(32), Uitslag_status VARCHAR(32), Zenddatum STRING, Zendtijd VARCHAR(32))ROW FORMAT DELIMITED FIELDS TERMINATED BY "/073" LINES TERMINATED BY '\n' STORED AS TEXTFILE;Beeline ne charge pas le fichier CSV

load data inpath '/user/cloudera/output/clean/neo.csv' overwrite into table babies;

Lorsque vous essayez cela, je reçois 0 lignes traitées code voir Snipped en sortie: Loading data to table default.babies Table default.babies stats: [numFiles=1, numRows=0, totalSize=738077097, rawDataSize=0] OK No rows affected (2.564 seconds)

Est-ce que quelqu'un sait comment résoudre ce problème? Le fichier CSV est séparé par; (Que les/073 représente et les lignes se terminent par une ligne briser

+0

vous pouvez mettre le csv sur HDFS, puis faire une externe table dessus en utilisant 'L OCATION' option –

Répondre

0

Comme je peux voir que le fichier est déjà présent dans HDFS, ajoutez ce qui suit lors de la création de la table externe

LOCALISATION «/utilisateur/Cloudera/sortie/propre/»

Dans ce cas, pas besoin de 'LOAD DATA INPATH', vous pouvez directement interroger la table.