2017-07-14 1 views
0

Quelle est la taille de dataset maximale que je suis autorisé à utiliser sur h2o. Plus précisément, la taille de l'ensemble de données peut-elle être supérieure à la mémoire vive/à l'espace disque de chaque noeud.H2O Utilisation d'une taille de dataset importante

J'ai des nœuds avec environ 25 Go d'espace disque et 40 Go de RAM, je veux utiliser un ensemble de données d'environ 70 Go.

Merci

erreurs Obtenir de:

Exception in thread "qtp1392425346-39505" java.lang.OutOfMemoryError: GC overhead limit exceeded 

Répondre

2

Il n'y a pas de jeu de données maximum dans H2O. Les exigences sont définies par la taille d'un cluster que vous créez. Il y a plus d'informations sur la façon de dire à H2O quelle taille de tas maximum vous voulez here.

Si votre jeu de données est 70G et que vous avez des nœuds avec seulement 40G de RAM, vous devrez utiliser un cluster multi-nœuds. La règle générale que nous disons aux gens est que votre cluster H2O devrait être 3x la taille de vos données sur le disque. Cependant, cela dépend fortement de l'algorithme que vous utilisez.

70G * 3 = 210G, vous pouvez donc essayer un cluster à 5 nœuds. Ou, vous pourriez commencer avec moins de nœuds, essayez d'exécuter votre code et augmenter la taille du cluster si nécessaire.