2011-03-18 8 views
1

Quelle est la meilleure façon de calculer la matrice distance/proximité pour de très grands vecteurs clairsemés? Par exemple, vous obtenez la matrice de conception suivante, où chaque ligne est un vecteur clairsemé 68771 dimensionnel.matrice de proximité en python

designMatrix < 5830x68771 matrice creuse de type '' avec 1229041 éléments stockés dans un format compressé Sparse Row>

Répondre

1

Avez-vous essayé les routines scipy.spatial.distance?

http://docs.scipy.org/doc/scipy/reference/spatial.distance.html

Si cela vous oblige à aller à une représentation dense, alors vous pouvez être mieux rouler vos propres, en fonction de la densité des éléments non nuls. Vous pouvez extraire les zéros tout en conservant une carte entre les nouveaux index et les index d'origine, calculer les distances par paire sur les éléments non nuls restants, puis utiliser l'indexation pour mapper les données.