J'écris un script bash qui devrait télécharger la page html et à partir de cette page extrait tous les liens vers les fichiers pdf.Imprimer les liens vers tous les fichiers PDF en utilisant bash
Je dois dire que je suis novice à bash donc pour l'instant je ne peux que grep toutes les lignes qui contient <a href
et ensuite Grep ces lignes qui ont pdf
mot.
Je peux barelly utiliser awk
mais je ne sais pas comment écrire correctement regex pour obtenir seulement du texte en <a href="*.pdf">
où je veux avoir *.pdf
.
EDIT: grep "<a href=\"*.pdf\""
ne trouve pas tous les liens vers pdfs, comment est-ce possible? Par exemple <a href="lorem ipsum.pdf">...</a>
est introuvable.
Vous devriez lire un manuel sur la syntaxe des expressions régulières. '*' (étoile) et '.' (point) ont des significations spéciales. Pour votre commande 'grep', essayez' ' '' à la place. –
Quelque chose comme ça? [root @ marionnette: 0 newrelic-infra] # echo $ code [root @ marionnette: 0 newrelic-infra] # echo $ code | awk 'BEGIN {FS = "\" " } {print $ 2} ' abc.pdf ..Une fois que vous avez dérobé les lignes contenant pdf et href, essayez de le rediriger vers awg' BEGIN {FS = "\" "} {print $ 2} ' –
n'utilisez pas regex , utilisez les analyseurs html – Sundeep