Je doute que les données soient partitionnées en fichiers pièce si les données sont faussées. Si possible, aidez-moi à clarifier cela.Comment les données sont divisées en fichiers pièce dans sqoop
Disons ceci ma table department
avec department_id
comme clé primaire.
mysql> select * from departments;
2 Fitness
3 Footwear
4 Apparel
5 Golf
6 Outdoors
7 Fan Shop
Si je sqoop import
en mentionnant -m 1
dans la commande d'importation, je sais que je vais avoir qu'un seul fichier partie généré avec tous les enregistrements qui.
Maintenant, j'ai exécuté la commande sans spécifier aucun mappeur. Donc, par défaut, il devrait prendre 4 mappeurs et il a créé 4 fichiers de partie dans HDFS. Voici comment les documents ont été distribués par fichier de pièce.
[[email protected] ~]$ hadoop fs -cat /user/cloudera/departments/part-m-00000
2,Fitness
3,Footwear
[[email protected] ~]$ hadoop fs -cat /user/cloudera/departments/part-m-00001
4,Apparel
[[email protected] ~]$ hadoop fs -cat /user/cloudera/departments/part-m-00002
5,Golf
[[email protected] ~]$ hadoop fs -cat /user/cloudera/departments/part-m-00003
6,Outdoors
7,Fan Shop
Selon la BoundingValsQuery, Min (department_id) = 2, Max (department_id) = 8 et 4 mappeurs doivent être utilisées par défaut. Lors du calcul, chaque mappeur doit obtenir (8-2) /4=1.5 enregistrements.
Ici, je ne comprends pas comment distribuer les données. Je ne pouvais pas comprendre comment 2 enregistrements sont venus en partie-m-00000 et seulement un en partie-m-00001, partie-m-00002 et encore deux en partie-m-00003.
vous devriez expliquer mieux que vous voulez si vous voulez que quelqu'un vous aide. Vous devriez au moins expliquer ce que vous voulez accomplir. –
Je voulais savoir comment les données sont réparties entre les fichiers pièce, c'est-à-dire quel enregistrement va dans quel fichier pièce. – iamteja
Sqoop crée une requête sql pour chaque mappeur. Vous pouvez vérifier le SQL de tous les nœuds de travailleurs. Pouvez-vous exécuter toute requête sql sur votre serveur sql et partager le résultat? –