2010-09-10 7 views
1

J'essaie de comprendre cette tâche et de me demander s'il existe une façon standard de faire cela ou d'utiliser des bibliothèques qui seraient utiles.comparer des séquences temporelles

Certains événements sont suivis et synchronisés sur plusieurs sources de données S1 ... SN. Les informations enregistrées sont le type d'événement et l'horodatage. Il peut y avoir plusieurs événements du même type de manière séquentielle ou ils peuvent être intermittents. Il peut y avoir des événements "manquants", c'est-à-dire lorsque l'une des sources l'omet, et vice versa, lorsqu'une source introduit un "faux positif". Il y a généralement une différence de temps entre les observations d'un même événement à différentes sources. Cette différence de temps a une composante constante due à la localisation physique des sources mais peut également avoir une composante variable introduite par la latence du réseau et d'autres facteurs.

J'ai besoin de trouver un algorithme qui trouverait l'intervalle de temps maximum optimal qui devrait être utilisé pour regrouper les observations à toutes les sources dans un seul "événement observé" et permettre la détection des événements manquants et faux positifs.

Je me demande si la solution est vraiment quelque part dans le domaine des statistiques plutôt que des algorithmes. Toute entrée serait très apprécié.

Répondre

1

On dirait que vous construisez un système de présence :-) Dans le système que je construis actuellement, ce genre d'observations de regroupement est également nécessaire. Dans mon cas, il y a des employés qui ont un laissez-passer qu'ils mettront en avant d'un passreader pour enregistrer leur présence. D'abord, le système sélectionnera toutes les présences d'un employé. Ensuite, il les mettra dans des boîtes d'un jour, commandé par l'heure d'enregistrement. Chaque inscription sera évaluée selon qu'il s'agit d'un départ ou d'un arrêt. Si le premier enregistrement est un enregistrement de début, le système recherchera un enregistrement d'arrêt jusqu'à 12 heures maximum plus tard. Si l'arrêt ne vient pas, un arrêt est inséré. Des renseignements supplémentaires peuvent être mis en place lorsque la planification est connue. Perhapse vous pourriez utiliser des statistiques, mais dans mon cas c'était une question d'algorithmes, combinée à la connaissance de l'organisation.

+0

Je pense à la surveillance/surveillance du réseau. Dans tous les cas, la connaissance du domaine serait utile pour traiter les données bruitées. – Tobu

+0

C'est la surveillance du réseau. Des signaux spéciaux dans le flux de diffusion déclenchent des points d'insertion de publicité locaux (DPI). Ceux-ci sont généralement surveillés à plusieurs points dans le chemin du contenu, qui peut être sur la liaison ascendante saturée puis la liaison descendante, puis l'ingestion par câble. – m1tk4

+0

J'ai trouvé quelques très bonnes idées dans "Temporal Data Mining" par Theophano Mitsa, ISBN 978- 1-4200-8976-9. – m1tk4

Questions connexes