2017-09-20 3 views
1

Est-il possible de voir comment les caractéristiques qualitatives sont codées lorsque nous permettons à h2o de créer automatiquement des données catégoriques en lançant une colonne type enum?caractéristiques qualitatives encodée dans h2o en python

Je suis en train d'implémenter l'empilage de holdout où mes données d'entraînement sous-jacentes diffèrent pour chaque modèle. J'ai une caractéristique commune que je veux m'assurer que le codage est identique de la même manière à travers les deux ensembles. La fonctionnalité contient des noms (str). Il est garanti que tous les noms apparaissant dans un ensemble de données apparaîtront dans l'autre.

Répondre

0

La meilleure façon de voir à l'intérieur d'un modèle est d'exporter le POJO, et regardez le code source java. Vous devriez voir comment il traite les énumérations.

Mais, si je comprends bien le reste de votre question, il devrait être bien. Tant que les données d'entraînement contiennent toutes les valeurs possibles d'une catégorie, cela fonctionnera comme prévu. Si une valeur catégorielle non vue en formation est présentée en production, elle sera traitée comme une NA.