J'utilise le streaming Hadoop pour écrire un grabber HTML basé sur python. Je trouve que l'exécution d'un seul script python est lente. Je veux le modifier en une version multithread. Est-ce que quelqu'un sait ce qui serait un bon nombre pour définir le nombre de threads dans le mappeur. Je ne suis pas sûr des spécifications de chaque nœud du cluster mais je suppose qu'il supporterait au moins deux threads.Filetage avec Hadoop Streaming
0
A
Répondre
0
J'ai essayé d'utiliser le threading avec python, il y avait des problèmes avec le Global Interpreter Lock. Le ported code pour utiliser le module de multi-traitement, en interne hadoop assigne autant de mappeurs qu'il y a de cœurs dans le cluster, donc le multitraitement n'est pas le chemin à parcourir si vous avez besoin d'accélérer. Le multithread si exécuté correctement pourrait donner une certaine accélération
0
Je n'ai pas utilisé hadoop streaming pour le grabber html mais voici un post qui parle du fonctionnement d'urllib2 en utilisant plusieurs threads (pas un package multiprocessing, juste un simple multi thread).
L'espoir peut être utile.
Questions connexes
- 1. Hadoop Streaming Problems
- 2. Hadoop Streaming Multiline Input
- 3. Hadoop Streaming dans .NET
- 4. Hadoop Streaming Job avec entrée binaire?
- 5. Gestion des dépendances avec Hadoop Streaming?
- 6. Hadoop erreur de streaming, MapReduce avec python
- 7. Hadoop streaming avec deux entrées -Format?
- 8. Aller client pour Hadoop Streaming
- 9. Création d'un objet Job Hadoop pour Hadoop Streaming
- 10. Hadoop ou Hadoop Streaming pour MapReduce sur AWS
- 11. format d'entrée hadoop pour le streaming hadoop. Wikihadoop Input Format
- 12. Hadoop streaming longueur de ligne maximale
- 13. répertoires Passing à Hadoop streaming: aide nécessaire
- 14. Échec de la tâche Hadoop Streaming
- 15. Hadoop le streaming grep ne fonctionne pas
- 16. Hadoop Streaming Job échoué en python
- 17. Échec de la commande Hadoop en streaming avec l'erreur Python
- 18. Impossible d'exécuter DME travail avec Hadoop en streaming exécutable personnalisé
- 19. Comment suggéreriez-vous d'effectuer "Join" avec Hadoop streaming?
- 20. hadoop 1.1.2 - jar de streaming non trouvé
- 21. fonction en python combinateur Hadoop le streaming
- 22. Hadoop Streaming: Mapper 'encapsulant' un exécutable binaire
- 23. Hadoop Streaming Omettre des enregistrements très volumineux
- 24. hadoop streaming: comment voir les logs d'application?
- 25. Minuterie de filetage avec filetage de travailleur?
- 26. Les tâches Hadoop en streaming ne parviennent pas à signaler?
- 27. Obtenir le nom du fichier d'entrée en streaming Programme hadoop
- 28. Hadoop Streaming Job a échoué erreur en python
- 29. hadoop-streaming: réducteur en attente, ne démarre pas?
- 30. Hadoop streaming, en utilisant -libjars pour inclure des fichiers JAR
Threading fonctionne apparemment avec le streaming Hadoop, mais ne sait toujours pas combien de threads nous pouvons faire tourner par mappeur. – viper