je dois utiliser casperJS et PhantomJS pour obtenir uniquement les liens à la fois a
href
attribut et img
src
qui commencent par http, https, ftp ou FTPS (je suppose que c'est le regex qui devrait être utilisé. ((http|https|ftp|ftps):\/\/[^"]+)"/g)
Utilisez casperjs pour obtenir tous les liens d'une page
I mis en œuvre le code qui obtient les liens que des a
balises, mais je dois améliorer pour obtenir aussi les liens de img
balises qui correspondent à l'expression rationnelle ...
var casper = require('casper').create();
var links;
function getLinks() {
var links = document.querySelectorAll('img');
return Array.prototype.map.call(links, function (e) {
return e.getAttribute('src')
});
}
casper.start('https://marvel.com');
casper.then(function() {
links = this.evaluate(getLinks);
});
casper.run(function() {
for(var i in links) {
console.log(links[i]);
}
casper.done();
});
Je ne sais pas casperjs, mais votre regex semble bon. Je viens d'ajouter une note rapide: vous pouvez compacter 'http | https | ftp | ftps' en' https? | Ftps? '. – antoni