2017-09-27 9 views
0

J'essaie d'analyser les caractéristiques du Pima Indians Diabetes Data Set (suivez le lien pour obtenir l'ensemble de données) en traçant leurs distributions de densité de probabilité. Je n'ai pas encore supprimé les données 0 invalides, donc les graphiques montrent parfois un biais à la gauche. Pour la plupart, les distributions regard précis:Pourquoi cette estimation de densité de noyau a-t-elle des valeurs supérieures à 1.0?

All Probability Density Distributions

J'ai un problème avec le regard de l'intrigue pour DiabetesPedigree, qui montre des probabilités plus de 1,0 (pour x ~ entre 0,1 et 0,5). Si je comprends bien, les probabilités combinées devraient être égales à 1,0.

Probability Density Distribution for DiatebesPedigree

J'ai isolé le code de la parcelle DiatebesPedigree mais le même travaillera pour les autres en changeant la valeur dataset_index:

import pandas as pd 
import numpy as np 
import matplotlib.pyplot as plt 
from scipy.stats import gaussian_kde 

dataset_index = 6 
feature_name = "DiabetesPedigree" 
filename = 'pima-indians-diabetes.data.csv' 

data = pd.read_csv(filename) 
feature_data = data.ix[:, dataset_index] 

graph_min = feature_data.min() 
graph_max = feature_data.max() 

density = gaussian_kde(feature_data) 
density.covariance_factor = lambda : .25 
density._compute_covariance() 

xs = np.arange(graph_min, graph_max, (graph_max - graph_min)/200) 
ys = density(xs) 

plt.xlim(graph_min, graph_max) 
plt.title(feature_name) 
plt.plot(xs,ys) 

plt.show() 
+1

L'intégrale * sur un pdf est 1. Il n'y a aucune contradiction à voir ici. Vous pouvez rapidement calculer une estimation grossière: La partie entre 0. et 0.5 a une valeur moyenne de 1.5. La partie entre 0.5 et 1 a une valeur moyenne de 0.5. Le reste de la courbe est négligeable. Puis 0,5 * 1,5 + 0,5 * 0,5 = 1. Donc tout semble correct. – ImportanceOfBeingErnest

+0

@ImportanceOfBeingErnest - Ma compréhension est que la probabilité d'une valeur particulière (ou petite plage) peut être lue sur le graphique en lisant la valeur y correspondante à ce point. La probabilité la plus élevée possible est 1.0, ce qui signifie que la valeur est certaine, auquel cas tous les autres points doivent avoir une valeur 0. Une probabilité de 1,75 n'a pas de sens pour moi. Selon votre raisonnement, tous les autres graphiques ont des intégrales bien inférieures à 1.0. – maccaroo

+1

Dans ce cas, vous voudrez probablement consulter des statistiques ou un livre de mathématiques ou google pour KDE et PDF pour ajuster votre compréhension de PDF/KDE. Dans tous les cas, vous montrez l'intégrale est 1 comme prévu. – ImportanceOfBeingErnest

Répondre

0

Comme l'a justement marqué, un Continuous pdf dit jamais Si la valeur est inférieure à 1, avec le pdf pour la variable aléatoire continue, la fonction p (x) n'est pas la probabilité. vous pouvez vous référer aux varibales aléatoires continues et leurs distributions