2013-06-18 4 views
0

je suis tombé sur un problème où je ne pouvais pas trouver une façon élégante de le résoudre ...la fusion de données django ORM

Nous avons une application qui surveille d'entrée audio et tente d'affecter les matchs basés sur les empreintes digitales acoustiques.

L'application obtient un échantillon toutes les quelques secondes, puis effectue une recherche et stocke le résultat horodaté dans la base de données.

Les empreintes digitales ne sont pas toujours précises, de sorte que "mauvais" éléments sont affectés. Ainsi, les données ressemble à quelque chose comme:

timestamp foreign_id  my comment 
-------------------------------------------------- 
12:00:00   17 
12:00:10   17 
12:00:20   17 
12:00:30   17 
12:00:40   723  wrong match 
12:00:50   17 
12:01:00   17 
12:01:10   17 
12:01:20   None  no match 
12:01:30   17 
12:01:40   18 
12:01:50   18 
12:02:00   18 
12:02:10   18 
12:02:20   18 
12:02:30   992  wrong match 
12:02:40   18 
12:02:50   18 

Je suis à la recherche d'un moyen de « nettoyer » les données périodiquement.

Quelqu'un pourrait-il imaginer un bon moyen d'y parvenir? Dans l'exemple donné - l'entrée avec l'ID étranger de doit être corrigée à etc. Et - si possible - avec un seuil sur le nombre d'entrées en avant et en arrière doit être pris en compte.

Je ne sais pas si ma question est assez claire de cette façon, mais toutes les entrées sont les bienvenues!

Répondre

0

Vérifiez qu'un identifiant étranger se trouve dans la base de données tant de fois, puis vérifiez si ces temps sont proches les uns des autres. Pourquoi ne pas ignorer les «mauvaises» données lors de l'utilisation des données?

Questions connexes