Je suis intéressé par les jeux de données python mining
trop volumineux pour s'asseoir en RAM mais assis dans une seule HD.Outils Python pour le calcul/extraction de données hors-noyau
Je comprends que je peux exporter les données en tant que fichiers hdf5
, en utilisant pytables
. De plus, le numexpr
permet un calcul de base hors-noyau.
Que se passerait-il ensuite? Mini-batching si possible, et s'appuyant sur des résultats d'algèbre linéaire pour décomposer le calcul lorsque le mini-batching ne peut pas être utilisé?
Ou y at-il des outils de niveau supérieur que j'ai manqués?
Merci pour avoir un aperçu,
Merci pour la réponse Denis. Il semble que skilearn dispose de mini-installations de traitement par lots. En fait, je suis à la recherche de la façon la plus rationnelle de gérer l'apprentissage hors-noyau d'une sous-carte - réduire la taille. Particulièrement je cherche à comprendre les forces relatives de hdf5, sql, nosql. – user17375
La question des grands flux de données de Zelazny7 est meilleure car concrète, et obtient de meilleures réponses – denis