2017-08-14 8 views
2

Je suis curieux de savoir que lorsque vous utilisez la fonction Standardisée dans un modèle H2O dans R, comment cela fonctionne-t-il lors de l'enregistrement de nouvelles données. Je sais que quand il standardise un ensemble d'entraînement, il établit la moyenne à 0 et l'écart-type à 1 en fonction de la moyenne et de l'écart-type des données d'apprentissage, mais que fait-il des nouvelles données?Lors de l'utilisation de Standardiser en H2O sur les nouvelles données

Est-il standardisé en fonction de la moyenne des données d'apprentissage et de l'écart-type ou est-il standardisé en fonction des nouvelles données notées?

Répondre

0

La fonction de score applique le même mappage que celui utilisé pour standardiser les données d'apprentissage dans l'ensemble de données de test. Ceci est géré automatiquement par H2O.

+0

Merci Erin, c'était ma supposition sinon les coefficients ne seraient pas aussi interprétables. Je suppose que je dois juste garder un oeil sur chaque fonctionnalité afin qu'ils ne changent pas trop d'heures supplémentaires. Aussi savez-vous s'il y a une fonction qui va extraire ces cartographies pour moi? c'est-à-dire la déviation moyenne et standard utilisée pour standardiser chaque caractéristique ou est-ce que j'écris simplement une fonction qui le fait sur les données brutes ... mean (x) et sd (x). Fondamentalement, je veux déplacer le modèle plus près de mes données dans une base de données et écrire la fonction pour le modèle manuellement en utilisant sql. –

+0

Non, ces méthodes ne sont pas exposées via les API client H2O (à ma connaissance). Vous pouvez désactiver cela et faire les opérations à la main (voir l'argument 'standardize' dans GLM & DL; les autres algues ne déforment pas les fonctionnalités), mais si vous allez utiliser H2O pour la modélisation, il est plus facile de laisser H2O gérer ceci automatiquement. –

+0

J'ai depuis découvert que h2o produit à la fois des coefficients standardisés et non standardisés. les non-standardisés peuvent être utilisés sur des données non-standardisées! –