Imprimer les liens vers tous les fichiers PDF en utilisant bash

J'écris un script bash qui devrait télécharger la page html et à partir de cette page extrait tous les liens vers les fichiers pdf.Imprimer les liens vers tous les fichiers PDF en utilisant bash

Je dois dire que je suis novice à bash donc pour l'instant je ne peux que grep toutes les lignes qui contient <a href et ensuite Grep ces lignes qui ont pdf mot.

Je peux barelly utiliser awk mais je ne sais pas comment écrire correctement regex pour obtenir seulement du texte en <a href="*.pdf"> où je veux avoir *.pdf.

EDIT: grep "<a href=\"*.pdf\"" ne trouve pas tous les liens vers pdfs, comment est-ce possible? Par exemple <a href="lorem ipsum.pdf">...</a> est introuvable.

Source

2017-10-16 Delfi

Vous devriez lire un manuel sur la syntaxe des expressions régulières. '*' (étoile) et '.' (point) ont des significations spéciales. Pour votre commande 'grep', essayez' ' '' à la place. –

Quelque chose comme ça? [root @ marionnette: 0 newrelic-infra] # echo $ code [root @ marionnette: 0 newrelic-infra] # echo $ code | awk 'BEGIN {FS = "\" " } {print $ 2} ' abc.pdf ..Une fois que vous avez dérobé les lignes contenant pdf et href, essayez de le rediriger vers awg' BEGIN {FS = "\" "} {print $ 2} ' –

n'utilisez pas regex , utilisez les analyseurs html – Sundeep

Essayez cette ligne pour l'ensemble de la chaîne html. Fonctionne parfaitement pour moi.

grep -io "<a[[:space:]]*href=\"[^\"]\+\.pdf\">" | awk 'BEGIN{FS="\""}{print $2}'

Source

2017-10-17 07:50:28 HappyStoic

Imprimer les liens vers tous les fichiers PDF en utilisant bash

Répondre

Questions connexes