J'essaie d'apprendre MapReduce
en détail, en particulier la requête suivante. Comme nous savons que les données dans HDFS sont cassées en blocs et typiquement Mapper fonctionne sur un bloc à la fois;Comment le mappeur Hadoop fonctionne-t-il sur les enregistrements qui se retrouvent partiellement dans le bloc suivant?
nous pouvons avoir la situation dans laquelle un record
est renversé à un autre bloc; par exemple:
Jeu de données: "bonjour, comment allez-vous?"; ces données pourraient être divisées en deux blocs différents.
Bloc1:
hello, how a
Block2:
re
you doing
Maintenant, si Mapper fonctionne sur Bloc1, comment mappeur obtenir le dossier "complet" de block1 qui a renversé à Block2?
Quelqu'un pourrait-il m'aider à comprendre cela?