2017-08-24 8 views

Répondre

0

Vous pouvez utiliser Apache Arrow (nom du package Python est pyarrow) pour l'écriture des fichiers Parquet: https://arrow.apache.org/docs/python/parquet.html

Il y a quelques fonctions pratiques pour stocker pandas.DataFrames, pour les matrices creuses SciPy, vous pouvez utiliser certains d'entre eux, mais besoin d'ajuster un peu. Le bit important dans l'utilisation d'Apache Parquet est qu'il s'agit d'un format en forme de colonne, semblable à une table, c'est-à-dire qu'il attend un dictionnaire de tableaux. Vous devrez apporter votre matrice sous cette forme. Cela dépendra un peu de la manière dont Vectorflow attend les données.