2016-11-04 1 views
0

Lors du chargement du fichier à partir de l'ordinateur central dans Hadoop au format ORC, certaines des données chargées avec des guillemets simples (') et reste avec des guillemets doubles ("). Mais la source complète fichier est en guillemet simple (') Pour spécifier des délimiteurs personnalisés utilisés ruche Cobol Serdedonnées (guillemets simples et Doube Citations) Incohérence dans Ruche

Exemple:..

données Source:

First_NameLast_nameAdresse

Rev 'Har' O'Amy 4031 'B' Ave

chargé dans Hadoop comme, certaines données avec le format correct (') et quelques-uns avec des guillemets doubles (") ci-dessous:

First_Name Last_nameAdresse

Rev "Har" O "Amy 4031 "B" Ave

ce qui pourrait être la question et comment résoudre ce problème?

Répondre

0

un problème possible pourrait être delimiter donné alors que la création de votre tableau

alors essayez ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe' AVEC SERDEPROPERTIES (« serialization.encoding » = » UTF-8 '); lors de la création de la table Hive, puis charger les données.

également essayer d'utiliser UDF donné dans ce lien pour supprimer tous les caractères spéciaux si vous voulez que vos données propres https://github.com/ogrodnek/csv-serde