Nous avons une jointure de porc entre une petite table distincte (16M rangées) et une grande table inclinée (6B lignes). Une jointure régulière se termine en 2 heures (après quelques ajustements). Nous avons essayé using skewed
et été en mesure d'améliorer la performance à 20 minutes.cochon incliné rejoindre avec une grande table provoque "taille des métadonnées Split dépassé 10000000"
Cependant, lorsque nous essayons une plus grande table en biais (19B lignes), nous obtenons ce message du travail SAMPLER:
Split metadata size exceeded 10000000. Aborting job job_201305151351_21573 [ScriptRunner]
at org.apache.hadoop.mapreduce.split.SplitMetaInfoReader.readSplitMetaInfo(SplitMetaInfoReader.java:48)
at org.apache.hadoop.mapred.JobInProgress.createSplits(JobInProgress.java:817) [ScriptRunner]
Ceci est reproductible à chaque fois que nous essayons using skewed
, et ne se produit pas lorsque nous utilisons la jointure régulière.
nous avons essayé de définir mapreduce.jobtracker.split.metainfo.maxsize=-1
et nous pouvons voir qu'il est là dans le fichier job.xml, mais cela ne change rien!
Que se passe-t-il ici? Est-ce un bug avec l'exemple de distribution créé par using skewed
? Pourquoi ne pas aider à changer le param à -1
?
a décidé de déposer un bug jira: https://issues.apache.org/jira/browse/PIG-3411, mettra à jour – ihadanny
, nous avons constaté que changer mapreduce.jobtracker.split.metainfo. maxsize est connu pour ne pas fonctionner au niveau du job, seulement au niveau jobTracker, voir ici: https://groups.google.com/a/cloudera.org/forum/#!topic/cdh-user/UWBMKplvGkg – ihadanny
jamais trouver une solution à ce problème? Nous sommes confrontés à un problème similaire. – KennethJ