2009-12-29 7 views
0

Dites si je veux convertir 1000s de fichiers Word en pdf alors qu'utiliser Hadoop pour aborder ce problème aurait-il du sens? L'utilisation de Hadoop aurait-elle un avantage par rapport à la simple utilisation de plusieurs instances EC2 avec des files d'attente de travaux?Convertir des documents Word en pdf en utilisant Hadoop

De même, s'il y avait 1 fichier et 10 nœuds libres, hadoop diviserait-il le fichier et l'enverrait aux 10 nœuds ou le fichier serait-il envoyé à seulement 1 nœud tandis que 9 resterait inactif?

Répondre

2

Il n'y a pas beaucoup d'avantages à utiliser hadoop pour ce cas d'utilisation. Avoir des consommateurs concurrents lire dans une file d'attente et produire des sorties va être beaucoup plus facile à configurer et sera probablement plus efficace. Hadoop ne diviserait pas automatiquement un document et ne traiterait pas les sections de différents nœuds. Bien que si vous aviez un très gros (plusieurs milliers de pages), le cas d'utilisation de Hadoop aurait du sens - mais seulement lorsque le temps nécessaire pour produire un pdf sur une seule machine est significatif. Les tâches de la carte peuvent imprimer chacune quelques milliers de pages et la tâche de réduction fusionne les PDF en un seul document - bien que la lecture du fichier résultant puisse être difficile à lire si elle est très volumineuse.

1

Say si je veux convertir 1000s de mot fichiers au format PDF puis serait en utilisant Hadoop d'aborder ce problème de sens? L'utilisation de Hadoop aurait-elle un avantage par rapport à la simple utilisation de plusieurs instances EC2 avec des files d'attente de travaux?

Je pense que l'un ou l'autre outil pourrait accomplir cette tâche, cela dépend donc de ce que vous envisagez de faire avec les documents après la conversion. Derek Gottfrid, du New York Times famously, a trouvé que Hadoop était un outil utile pour la conversion de documents à grande échelle, donc c'est certainement dans le domaine des tâches pour lesquelles Hadoop fonctionne bien.

Aussi, s'il y avait 1 fichier et 10 nœuds libre serait alors Hadoop diviser le fichier et l'envoyer à 10 nœuds ou seront le fichier envoyé à seulement 1 nœud en 9 assis au ralenti?

Cela dépend du InputFormat que vous utilisez. Comme vous pouvez le voir dans la documentation, vous pouvez spécifier comment calculer les "InputSplits", qui peuvent inclure la division d'un document volumineux en morceaux.

Bonne chance avec n'importe quel outil que vous choisissez pour ce problème!

Cordialement, Jeff

0

Combien parlez-vous de 1000. à propos? S'il s'agit d'un lot unique, je le configurerais sur une seule machine et je le laisserais fonctionner, vous serez surpris de voir à quelle vitesse vous pouvez convertir 1000s de Docs en PDF, même si vous devez exécuter la tâche pour quelques jours, si c'est une fois converti alors il n'y a pas besoin de complications telles que Hadoop. Si vous convertissez continuellement des milliers de documents, cela vaut probablement la peine de mettre en place quelque chose d'autre.

Questions connexes