2017-10-03 8 views
0

J'analyse des données d'incident d'ambulance. L'ensemble de données couvre trois ans et compte environ 250000 incidents. L'analyse préliminaire indique que la distribution de l'incident est liée à la distribution de la population. L'utilisation d'un modèle de processus ponctuel utilisant spatstat est en accord avec cela, avec un large accord sur un tracé résiduel partiel. Cependant, on croit que la tendance diverge de cette tendance liée à la population pendant les «heures sociales», c'est-à-dire vendredi, samedi soir, jours fériés.Utilisation d'un modèle de processus ponctuel pour la prédiction

Je veux prendre des sous-ensembles de données et voir comment ils diffèrent de l'image brute. Comment expliquer la différence d'intensité due au plus petit nombre de points inhérents à un sous-ensemble de données?

Ou y at-il un moyen d'utiliser directement mon modèle ajusté pour l'image brute?

Il est difficile de fournir des données car il existe des problèmes de confidentialité, et avec la taille de l'ensemble de données, il est difficile de simuler la situation. Je ne suis en aucun cas un statisticien, donc je flotte un peu ici. J'ai une copie de
"Spatial Point Patterns Méthodologie et Applications avec R" qui est très utile.

Je vais essayer d'expliquer avec pseudocode ma méthodologie jusqu'à présent ..

250k_pts.ppp <- ppp(the_ambulance_data x and y, the_window) 
1.3m_census_pts <- ppp(census_data x and y, the_window) 

Meilleure bande passante pour la surface de densité par inspection visuelle semblait être bw.scott. Cela a été utilisé pour ajuster une surface de densité pour les points.

inc_density <- density(250k_pts.ppp, bw.scott) 
pop_density <- density(1.3m_census_pts, bw.scott) 

fit0 <- ppm(inc_density ~ 1) 
fit_pop <- ppm(inc_density ~ pop_density) 

partials <- parres(fit_pop, "pop_density") 

les résidus partiels Traçage montre que l'accord avec l'ajustement linéaire est largement acceptable, avec quelques zones de « wobble » ..

Ce que je pense à faire suivant:

the_ambulance_data %>% group_by(day_of_week, hour_of_day) %>% 
select(x_coord, y_coord) %>% nest() -> nested_day_hour_pts 

Prendre l'un de ces éléments de liste et créer un ppp, disons fri_2300hr_ppp; Comment puis-je comparer cette ppp ou densité avec le modèle plus large? Je peux faire des tests caractéristiques tels que la dispersion, la mise en grappe. Puis-je comparer les résidus partiels de fit_pop et fit_fri23?

Comment contrôler l'effet du nombre de points sur la densité, c'est-à-dire que j'ai 250k points contre peut-être 8000 points dans le sous-ensemble. Je pense peut-être que les quantiles de la surface de densité?

+0

Cela ne semble pas être une question de programmation spécifique à Stack Overflow. Si vous avez des questions générales sur les méthodes statistiques, vous devriez probablement vous renseigner sur [stats.se] ou [datascience.se] ou si c'est spécifique aux données géographiques, peut-être [gis.se]. – MrFlick

+0

Je dirais que le PO pourrait seulement avoir besoin d'ajouter quelques exemples de données et quelques lignes de code montrant ce qu'il a fait jusqu'ici, afin que nous puissions comprendre le problème et le voir comme un problème de programmation dans R/spatstat. D'un autre côté, vous pouvez avoir raison et Cross Validated serait un meilleur ajustement. Quoi qu'il en soit, un exemple plus spécifique avec des données (faux/sous-ensemble) et des modèles ajustés serait utile. –

Répondre

1

Fixer des marques aux données d'ambulance représentant le sous-ensemble/les catégories d'intérêt (par exemple, 'occupé' ou 'non occupé'). Pour une analyse informelle ou non paramétrique, utilisez des outils tels que relrisk ou density.splitppp après avoir séparé les différents types de points en utilisant split.ppp. Pour une analyse formelle (en tenant compte des tailles d'échantillons, etc.), vous devez adapter plusieurs modèles candidats aux mêmes données, un modèle ayant un effet occupé/non-occupé et un autre modèle n'ayant pas cet effet, puis utiliser anova.ppm pour tester formellement s'il existe un effet occupé/non-occupé. Voir le chapitre 14 du livre mentionné.