2017-09-12 5 views
4

J'ai remarqué un ajout relativement récent à la suite h2o.ai, la possibilité d'effectuer une mise à l'échelle Platt supplémentaire pour améliorer l'étalonnage des probabilités de sortie. (Voir calibrate_model in h2o manual.) Néanmoins, peu de conseils sont disponibles sur les documents d'aide en ligne. En particulier, je me demande si, lorsque Platt Scaling est activé:h2o.ai Platt Scaling calibration

  • Comment cela affecte le classement des modèles? C'est-à-dire, la mise à l'échelle de platt est-elle calculée après la mesure de classement ou avant?
  • Comment cela affecte les performances de calcul?
  • Le calibration_frame peut-il être le même que validation_frame ou ne devrait pas (à la fois sous un calcul ou d'un point de vue théorique)?

Merci à l'avance

Répondre

1

L'étalonnage est une étape de post-traitement courir après le modèle se termine. Par conséquent, cela n'affecte pas le classement et n'a aucun effet sur les métriques d'entraînement. Il ajoute 2 colonnes de plus à la trame notée (avec prédictions calibrées).

This article fournit des conseils comment construire un cadre d'étalonnage:

  1. ensemble de données Divisé en essai et en train
  2. de Split le train mis en modèle pour la formation et l'étalonnage.

Il dit aussi: L'étape la plus importante est de créer un ensemble de données distinct pour effectuer le calibrage avec.

Je pense que la trame d'étalonnage doit être utilisée uniquement pour l'étalonnage, et donc distincte de la trame de validation. La réponse prudente est qu'ils doivent être séparés - lorsque vous utilisez un cadre de validation pour un arrêt anticipé ou un ajustement de modèle interne (par exemple, recherche lambda dans H2O GLM), ce cadre de validation devient une extension des «données d'entraînement». hors limites à ce moment-là. Cependant, vous pouvez essayer les deux versions et observer directement l'effet, puis prendre une décision. Voici quelques conseils supplémentaires de l'article:

"La quantité de données à utiliser pour l'étalonnage dépendra de la quantité de données dont vous disposez.Le modèle de calibrage ne correspondra généralement qu'à un petit nombre de paramètres (donc vous ne le faites pas). J'ai besoin d'un énorme volume de données.) Je viserais environ 10% de vos données d'entraînement, mais au moins 50 exemples. "

+1

Merci Erin pour le guidage. Je suggère d'incorporer cela dans les documents h2oai, au moins dans un format synthétique –

+0

Oui, nous allons ajouter cela aux docs. –