Say si je veux convertir 1000s de mot fichiers au format PDF puis serait en utilisant Hadoop d'aborder ce problème de sens? L'utilisation de Hadoop aurait-elle un avantage par rapport à la simple utilisation de plusieurs instances EC2 avec des files d'attente de travaux?
Je pense que l'un ou l'autre outil pourrait accomplir cette tâche, cela dépend donc de ce que vous envisagez de faire avec les documents après la conversion. Derek Gottfrid, du New York Times famously, a trouvé que Hadoop était un outil utile pour la conversion de documents à grande échelle, donc c'est certainement dans le domaine des tâches pour lesquelles Hadoop fonctionne bien.
Aussi, s'il y avait 1 fichier et 10 nœuds libre serait alors Hadoop diviser le fichier et l'envoyer à 10 nœuds ou seront le fichier envoyé à seulement 1 nœud en 9 assis au ralenti?
Cela dépend du InputFormat que vous utilisez. Comme vous pouvez le voir dans la documentation, vous pouvez spécifier comment calculer les "InputSplits", qui peuvent inclure la division d'un document volumineux en morceaux.
Bonne chance avec n'importe quel outil que vous choisissez pour ce problème!
Cordialement, Jeff