2017-03-25 5 views
0

Je travaille actuellement avec un petit jeu de données de valeurs d'entraînement, pas plus de 20, et je reçois un grand MSE. Les vecteurs de données d'entrée sont eux-mêmes constitués de 16 paramètres, dont beaucoup sont des variables binaires. Parmi toutes les valeurs d'entraînement, la majorité des 16 paramètres restent les mêmes (mais pas tous). Les variables d'entrée restantes, à travers tous les exemples, varient beaucoup entre eux. C'est-à-dire que deux exemples peuvent sembler identiques, à l'exception de deux paramètres dans lesquels ils diffèrent, un paramètre étant une variable binaire et un autre étant une variable continue, où la différence pourrait être supérieure à un seul écart-type (pour cela l'ensemble de valeurs de la variable). Ma variable de sortie unique (à partir de maintenant) peut être soit une variable continue, OU en fonction de la vraie difficulté de réduire l'erreur dans ma situation, je peux en faire un problème de classification à la place, avec 12 formes différentes pour la classification.Réseau de neurones suggéré pour un petit ensemble de données très variable?

Je suis depuis longtemps des recherches sur différents réseaux de neurones que ma mise en œuvre actuelle d'un MLP d'alimentation vers l'avant, comme je l'ai lu dans Stochastique NNs, échelle NNs, et de nombreuses formes de NNS récurrentes. Je suis coincé avec lequel je devrais enquêter, car je n'ai pas le temps d'essayer tous les NN disponibles. Alors que ma description peut être vague, quelqu'un pourrait-il faire une suggestion quant à quel réseau je devrais enquêter pour minimiser ma fonction de coût (à partir de maintenant, MSE) le plus? Si ma configuration actuelle doit être rendue implacable en raison de la difficulté à prédire la sortie correcte pour un petit ensemble de valeurs d'entraînement très variées, quel réseau fonctionnerait le mieux, si mon jeu de données devait être étendu à l'ordre de milliers de exemplaires (au prix d'un ensemble de valeurs d'entrée significativement plus redondant et apparemment homogène)?

Toute aide est très certainement appréciée.

Répondre

0

20 échantillons sont très petits surtout si vous avez 16 variables d'entrée. Il sera difficile de déterminer laquelle de ces entrées est responsable de votre valeur de sortie. Si vous gardez votre réseau simple (moins de couches), vous pouvez utiliser autant d'échantillons que vous le souhaitez pour la régression traditionnelle.