J'ai plusieurs TB de données (en sous-ensembles) dans des fichiers plats que je veux convertir en HDF5 en utilisant Python Pandas/Pytables/H5py pour accélérer interroger et rechercher. Je prévois de convertir chaque sous-section des données en utilisant quelque chose comme to_hdf
et de les stocker dans un HDFStore.HDFStore: Efficacité entre l'ajout de données à une table existante et la réindexation vs la création d'une nouvelle table
Bien que les données stockées n'auront jamais besoin d'être modifiées, il se peut que je doive ajouter des données ultérieurement à une sous-section particulière, puis réindexer (pour les requêtes) la totalité de la pièce. Ma question est la suivante: Est-il plus efficace d'ajouter des données à une table existante (en utilisant store.append
) puis de réindexer la nouvelle table, ou devrais-je simplement créer une nouvelle table avec les données que j'ai besoin d'ajouter? Si je fais ce dernier, je pourrais créer un gros lot (plus de 100k) dans le HDSFStore. Cela dégraderait-il le temps d'accès au nœud?
J'ai essayé de regarder d'autres réponses et j'ai aussi créé mon propre magasin avec un tas de nœuds pour voir s'il y avait un effet, mais je n'ai rien trouvé de significatif. Toute aide est appréciée!
Qu'entendez-vous par efficace? Minimiser le temps ou minimiser l'espace, ou une combinaison? –