2012-07-27 4 views
0

J'essaie de lire à partir d'une très grande base de données constituée de données de séries temporelles géoréférencées. SO J'ai le fichier dans le format suivant:Personnalisation de InputFormat dans Hadoop

latitude, longitude, valeur @ temps1, valeur @ temps2, .... valeur @ tempsN.

Donc, ce sont les données pour la terre entière. Maintenant pour mon travail, je dois obtenir la latitude, la longitude comme valeur de la clé et la valeur de la série temporelle comme valeur. Autant que je sache hadoop a KeyValueInputFormat mais il considère le premier onglet comme le délimiteur. Y at-il un moyen de le personnaliser.

Vraiment besoin d'une solution pour cela.

Merci Ayush

Répondre

0

Jouez avec

key.value.separator.in.input.line 

dans la configuration de l'emploi.

+0

pouvez-vous pointer vers un tutoriel qui peut m'aider à faire cela. Je suis assez nouveau à cela. –

+0

Cochez cette case http://stackoverflow.com/questions/9211151/how-to-specify-keyvaluetextinputformat-separator-in-hadoop-20-api –