Je souhaite utiliser https://github.com/datamade/dedupe pour dédupliquer certains enregistrements en python. En regardant leurs exemplesEnregistrements dédupliqués Python - déduplication
data_d = {}
for row in data:
clean_row = [(k, preProcess(v)) for (k, v) in row.items()]
row_id = int(row['id'])
data_d[row_id] = dict(clean_row)
le dictionnaire consomme beaucoup de mémoire par rapport à par ex. un dictionnaire créé par des pandas sur un pd.Datafrmae, ou même un pd.Dataframe normal.
Si ce format est requis, comment puis-je convertir un fichier pd.Dataframe efficacement dans un tel dictionnaire?
modifier
exemple ce pandas géants génère
{'column1': {0: 1389225600000000000,
1: 1388707200000000000,
2: 1388707200000000000,
3: 1389657600000000000,....
Exemple ce dedupe attend
{'1': {column1: 1389225600000000000, column2: "ddd"},
'2': {column1: 1111, column2: "ddd} ...}
Vous pouvez convertir un Dataframe Pandas en dictionnaire en utilisant 'DataFrame.to_dict()', c'est ce que vous cherchez? –
En effet, mais c'est Colonne> Index> Valeur et ils semblent exiger Index> Colonne> Valeur qui recrée la clé de colonne pour chaque enregistrement –
Je pense que cela bénéficierait grandement d'un exemple avec des données. – chthonicdaemon