Une des choses que je traite le plus dans le nettoyage des données est les valeurs manquantes. R traite ce bien en utilisant son étiquette de données manquantes "NA". En python, il semblerait que je devrais faire face à des tableaux masqués qui semblent être une douleur majeure à mettre en place et qui ne semblent pas être bien documentés. Des suggestions pour faciliter ce processus en Python? Cela devient un bris d'affaire en passant en Python pour l'analyse de données. MerciComment gérez-vous les données manquantes en utilisant numpy/scipy?
Mise à jour Cela fait évidemment un bout de temps que j'ai regardé les méthodes dans le module numpy.ma. Il semble qu'au moins les fonctions d'analyse de base sont disponibles pour les tableaux masqués, et les exemples fournis m'ont aidé à comprendre comment créer des tableaux masqués (merci aux auteurs). Je voudrais voir si certaines des méthodes statistiques les plus récentes en Python (en cours de développement dans le GSoC de cette année) incorporent cet aspect, et au moins fait l'analyse de cas complète.
Pourquoi ne pas utiliser numpy.NaN pour identifier les données manquantes? – Paul