2015-09-28 1 views
1

J'ai un modèle de forêt aléatoire en utilisant h2o.randomForest().créer 2 instances de h2o dans R

Maintenant, j'ai besoin de marquer beaucoup de données en utilisant h2o.predict(). En raison de certaines contraintes, je ne peux pas marquer toutes les données en même temps. Donc, fondamentalement, je veux marquer différents ensembles de données dans une boucle. Donc, pour accélérer le processus, je veux marquer plusieurs jeux de données en même temps en exécutant le même script dans deux instances R différentes. Mais quand je le fais, une instance fonctionne bien mais d'autres instances me donnent l'erreur suivante. Parfois, les deux instances donnent cette erreur.

Error in .h2o.__checkConnectionHealth(conn) : 
H2O connection has been severed. Cannot connect to instance at http://127.0.0.1:54321/ 
Failed to connect to 127.0.0.1 port 54321: Address already in use 

L'erreur ci-dessus n'est même pas cohérente, parfois je l'obtiens parfois je ne le fais pas. J'initialise le h2o et je prédis comme suit dans toutes les instances de R.

h2oServer = h2o.init(nthreads = -1, max_mem_size = '8g') 
h2.predict(model, test_data) 

Comment puis-je y parvenir? Comment utiliser le cloud h2o via 2 instances R différentes?

Merci,

Répondre

1

En genenral, la méthode que vous essayez d'utiliser n'accélère pas le processus en place depuis marquant un seul ensemble de données occupera de la CPU, plusieurs appels ne créera pas nécessaire. Contention De plus, vous ne pouvez démarrer qu'une seule instance H2O à partir de R, si vous essayez de démarrer plus d'une instance, vous pouvez le faire à partir de la ligne de commande (java -jar h2o.jar).