suppression des lignes en double à partir du fichier/grep

Je veux supprimer toutes les lignes où toute la deuxième colonne 05408736032 sont les mêmessuppression des lignes en double à partir du fichier/grep

0009300 | 05408736032 | 89 | 01 | 001 | 0 | 0 | 0 | 1 | NNNNNNYNNNNNNNNN | asdf | 0009367 | 05408736032 | 89 | 01 | 001 | 0 | 0 | 0 | 1 | NNNNNNNNNNNNNNNN | adff |

ces lignes ne sont pas consécutives. C'est bien d'enlever toutes les lignes. Je ne dois pas en garder un d'entre eux.

Désolé mon unix fu est vraiment faible de non utilisation :).

Source

2009-09-17 Surya

daveb - pourquoi la balise «sort»? – mob

Double posté: http://serverfault.com/questions/66301/removing-duplicate-lines-from-file-with-grep –

@Dennis quel est le problème avec le double affichage? Je ne comprends pas. – Surya

Si les colonnes ne sont pas fixes largeur, vous pouvez toujours utiliser tri:

sort -t '|' --key=10,10 -g FILENAME

Le -t drapeau va définir le séparateur. Le -g est juste pour l'ordre numérique normal.

Source

2009-09-17 17:37:26 daveb

Utilisez '-k' pour une portabilité maximale (POSIX-compatible) (et non '='). Aussi, pourquoi 10,10 pour la deuxième colonne? –

Deux raisons. Un, Lorsque vous utilisez -t sort utilisera les champs pas les caractères (ie 10 n'est pas un nombre plus élevé). Deux, la fin (, 10) est spécifié pour arrêter le tri en utilisant le reste de la ligne à partir de ce point. – daveb

En supposant qu'ils sont consécutifs et que vous voulez supprimer les suivantes, le script awk suivant fera:

awk -F'|' 'NR==1 {print;x=$2} NR>1 {if ($2 != x) {print;x=$2}}'

Il fonctionne en imprimant la première ligne et le stockage de la deuxième colonne. Ensuite, pour les lignes suivantes, il saute celles où la valeur stockée et la deuxième colonne sont les mêmes (si différent, il imprime la ligne et met à jour la valeur stockée). Si elles ne sont pas consécutives, j'opterais pour une solution Perl où vous conservez un tableau associatif pour détecter et supprimer les doublons - je le code mais ma fille de 3 ans vient de se réveiller, il est minuit et elle a un rhume - vous voir tous demain, si je survit à la nuit :-)

Source

2009-09-17 16:23:33 paxdiablo

oh ils ne sont pas postérieurs – Surya

Si toutes vos données d'entrée sont formatées comme ci-dessus - c'est-à-dire des champs de taille fixe - et l'ordre des lignes dans la sortie n'a pas d'importance , sort --key=8,19 --unique devrait faire l'affaire. Si l'ordre est important, mais que les lignes en double sont toujours consécutives, uniq -s 8 -w 11 fonctionnera. Si les champs ne sont pas à largeur fixe mais que les lignes en double sont toujours consécutives, le script awk de Pax fonctionnera. Dans le cas le plus général, nous sommes probablement en train de regarder quelque chose d'un peu trop compliqué pour un one-liner.

Source

2009-09-17 16:25:23 moonshadow

Unix comprend python, de sorte que les quelques-liners suivants peuvent être juste ce dont vous avez besoin:

f=open('input.txt','rt') 
d={} 
for s in f.readlines(): 
    l=s.split('|') 
    if l[2] not in d: 
    print s 
    d[l[2]]=True

Cela fonctionne sans nécessiter de longueur fixe, et même si des valeurs identiques ne sont pas voisins.

Source

2009-09-17 16:29:55 redtuna

Cela ne supprimera pas toutes les lignes avec des valeurs en double - il imprimera la première instance. –

en effet. La question dit "il est bon d'enlever toutes les instances" - donc supprimer tout n'est pas une exigence, c'est OK de laisser un représentant de chaque. Au moins, c'est comme ça que je l'ai compris. – redtuna

ce awk imprimer uniquement les lignes où la seconde colonne est pas 05408736032

awk '{if($2!=05408736032}{print}' filename

Source

2009-09-17 17:14:19

Avez-vous besoin de guillemets autour du nombre? Est-ce qu'il est interprété comme un nombre octal en raison du zéro de tête? Ou n'est-il pas interprété comme octal à cause des 8 apparaissant (invalide en octal, bien sûr), mais qu'en est-il s'il n'y avait pas 8 ou 9 dans le nombre? –

Prend deux passes sur le fichier d'entrée: 1) trouver les valeurs en double, 2) les enlever

awk -F\| ' 
    {count[$2]++} 
    END {for (x in count) {if (count[x] > 1) {print x}}} 
' input.txt >input.txt.dups 

awk -F\| ' 
    NR==FNR {dup[$1]++; next} 
    !($2 in dup) {print} 
' input.txt.dups input.txt

Si vous utilisez bash, vous pouvez omettre le fichier temporaire: combiner en une seule ligne processus à l'aide substitution: (respiration profonde)

awk -F\| 'NR==FNR {dup[$1]++; next} !($2 in dup) {print}' <(awk -F\| '{count[$2]++} END {for (x in count) {if (count[x] > 1) {print x}}}' input.txt) input.txt

(ouf!)

Source

2009-09-17 18:04:20

awk -F"|" '!_[$2]++' file

Source

2009-09-18 04:41:07 ghostdog74

Mettez les lignes dans un hachage, en utilisant la ligne comme clé et la valeur, itérer puis sur le hachage (cela devrait fonctionner dans presque toutes les langues de programmation, awk, Perl, etc.)

Source

2010-01-20 11:06:24 helpermethod

Ceci est le code qui est utilisé pour supprimer les mots en double dans la ligne ..

awk '{for (i=1; i<=NF; i++) {x=0; for(j=i-1; j>=1; j--) {if ($i == $j){x=1} } if(x != 1){printf ("%s ", $i) }}print ""}' sent

Source

2011-10-11 08:59:33

suppression des lignes en double à partir du fichier/grep

Répondre

Questions connexes