Je voudrais comparer deux fichiers CSV énormes avec des quantités différentes. Une seule colonne contient les mêmes valeurs, car elles sont également présentes dans l'autre fichier de la même colonne, ce qui est beaucoup plus important. Donc, je veux garder les lignes dans l'un des fichiers où une ligne avec la même valeur dans le deuxième fichier existe également.Comparer les colonnes de deux fichiers CSV et supprimer les différences
Exemple:
File a
value1,value2,value3,...
value4,value5,value6,...
value7,value8,value9,...
File b:
value10,value2,value11,...
value12,value13,value14,...
Dans le fichier final b (ou un nouveau dossier complet) devrait ressembler à ceci:
value10,value2,value11,...
Je ne crois pas que ce soit difficile, mais pour le moment Je n'ai aucune idée de comment y parvenir. Comment pourrais-je y arriver avec des outils Linux ou un script bash/python?
Merci pour tout conseil!
Fondamentalement, vous voulez atteindre B.Columns-A.Colums? –
Qu'est-ce que "énorme" et quelle est la différence entre la taille du fichier (et le nombre de lignes)? – hop
@ChetanKulkarni correct, veulent se débarrasser des différences liées à une colonne. – Kay