Comment ajouter des tâches à hadoop par programme et les exécuter dans mon application Java? Des idées? Merci.Hadoop, exécution de tâches
Répondre
En java cela est assez facile:
Configuration conf = new Configuration();
Job job = new Job(conf);
job.setJarByClass(YOUR_MAPPER.class);
job.setMapperClass(YOUR_MAPPER.class);
job.setReducerClass(YOUR_REDUCER.class);
job.setOutputKeyClass(YOUR_OUTPUT_KEY.class);
job.setOutputValueClass(YOUR_OUTPUT_VALUE.class);
FileInputFormat.addInputPath(job, new Path("YOUR_INPUT_PATH"));
FileOutputFormat.setOutputPath(job, new Path("YOUR_OUTPUT_PATH"));
System.exit(job.waitForCompletion(true) ? 0 : 1);
Si vous avez besoin de le soumettre à un cluster, vous devez ajouter ces valeurs à l'objet de configuration:
conf.set("fs.default.name", "hdfs://localhost:9000");
conf.set("mapred.job.tracker", "localhost:9001");
Vous devez remplacer les ports et hostname aux valeurs configurées dans le répertoire du cluster conf.
Mais, afin d'exécuter le travail sur l'exécution sur hadoop, je dois entrer "bin/hadoop jar hadoop.jar main.UrlFetch entrée sortie" à chaque fois. Je veux exécuter un travail (par exemple, l'analyse de nombreux sites Web) à partir de mon application Web, parfois contrôler l'achèvement et transmettre les résultats à mon application Web. – Gravedigger
en fait, cet extrait peut être utilisé dans n'importe quelle application. –
- 1. Hadoop - exécution de plusieurs tâches Map
- 2. hadoop Fichiers de tâches latérales
- 3. Exécution de tâches parallèles
- 4. Exécution de Hadoop Pi Exemple
- 5. Exécution de plusieurs tâches de mappage Apache Nutch sur un cluster Hadoop
- 6. Exécution de tâches CUDA parallèles
- 7. Exécution des tâches hadoop de MRToolkit sur AWS elastic map/reduce
- 8. Séparation des tâches Hadoop et Réduction des tâches
- 9. Hadoop exécution de la tâche spéculative
- 10. Exécution de l'index solr sur hadoop
- 11. Exécution de Hadoop sous Windows 7
- 12. Exécution de tâches de type Y
- 13. Exécution de la file d'attente de tâches
- 14. Exécution séquentielle de tâches javaFX, services
- 15. Exécution de tâches Cron en parallèle (PHP)
- 16. Exécution de tâches parallèles sur NAnt
- 17. Exécution de tâches d'arrière-plan dans Django
- 18. Exécution d'un travail Hadoop sans utiliser JobConf
- 19. Les demandes concernant la carte-reduce exécution dans Hadoop
- 20. Problème exécution MR programmes sur Hadoop d'Eclipse
- 21. Ces temps de configuration/nettoyage/exécution Hadoop sont-ils raisonnables?
- 22. Tâches de mappage Hadoop mesurant les mêmes statistiques de noeuds
- 23. Hadoop - partage de fichiers entre plusieurs tâches dans une chaîne
- 24. Comment augmenter les tâches de carte hadoop en implémentant getSplits
- 25. Hadoop recommande le nombre premier de tâches map/reduce?
- 26. Exécution des tâches avant la redirection
- 27. infinie exécution des tâches pour l'application nodejs
- 28. Hadoop - les tâches de mappe se poursuivent après la réduction des tâches
- 29. Exécution d'un travail hadoop sans créer de fichier jar
- 30. Prise en charge des tâches Hadoop 1.0.1 sur Amazon EMR
Vous pouvez soumettre des tâches à Hadoop et les laisser parcourir votre application Java sur votre cluster. C'est ce que tu veux dire? –
Oui c'est ce que je veux faire. Mais comment ? – Gravedigger
k regarde ma réponse;) –