Je suis très nouveau pour Hadoop et je suis actuellement tentent de joindre deux sources de données où la clé est un intervalle (par exemple [date début/date de fin]). Par exemple:Hadoop: intervalles et JOIN
input1:
20091001-20091002 A
20091011-20091104 B
20080111-20091103 C
(...)
input2:
20090902-20091003 D
20081015-20091204 E
20040011-20050101 F
(...)
Je voudrais trouver tous les enregistrements où le key1 chevauche la key2. Est-ce possible avec hadoop? Où puis-je trouver un exemple de mise en œuvre?
Merci.
Pierre, ne sais pas si vous compris cela, mais toute idée est pour cela dans Pig? – Jilles
Une solution a été donnée sur Biostar: http://biostar.stackexchange.com/questions/8821 – Pierre