2017-09-21 1 views
0
écart

J'ai un ensemble de données d'un capteur (station) depuis plusieurs années avec cette structure:apprentissage en profondeur la formation de l'ensemble de données qui a

station Direction year month day dayOfweek hour volume 
    1009  3  2015  1  1  5  0  37 
    1009  3  2015  1  1  5  1  20 
    1009  3  2015  1  1  5  2  24 
    ...  .  ..  ..  ..  ..  ..  .. 

il y a beaucoup d'écart (valeur manquée) dans ces données. Par exemple, il pourrait y avoir un mois ou plusieurs jours manqués. Je remplis les volumes manqués avec 0. Je veux prédire le volume basé sur les données précédentes. J'ai utilisé LSTM et l'erreur absolue moyenne en pourcentage (MAPE) est assez élevée autour de 20 et je dois la réduire.

Le principal problème que j'ai est même pour traning j'ai un écart. Existe-t-il d'autres techniques d'apprentissage en profondeur pour ce type de données?

Répondre

1

Il existe plusieurs façons de gérer les valeurs manquantes répertoriées ici (https://machinelearningmastery.com/handle-missing-data-python/).

Si j'ai suffisamment de données, je vais juste ajouter des lignes avec des données manquantes. Si je n'ai pas assez de données et/ou si je dois prédire les cas où des données sont manquantes, j'essaie normalement ces deux approches et je choisis celle qui est la plus précise.

La même chose que vous. Je choisis une valeur distincte qui n'est pas incluse dans l'ensemble de données, comme 0 dans votre cas et remplis cette valeur. L'autre approche consiste à utiliser la moyenne ou la médiane de l'ensemble d'apprentissage. J'utilise la même valeur (calculée sur l'ensemble d'entraînement) dans mon ensemble de validation/ensemble de test. La médiane est meilleure que la moyenne, si la moyenne n'a pas de sens dans le contexte actuel. (2014.5 comme année par exemple).