2016-11-29 3 views
0

J'ai utilisé nwjs (ver 0.18.8) et j'ai fait une demande sur mangafox.me pour faire un mangareader.Scraping site avec requête node.js et obtenir des caractères étranges

Il fonctionne avec http://mangafox.me/directory/

Lorsque je tente de faire une demande sur une image manga comme celui-ci http://mangafox.me/manga/onepunch_man/vTBD/c066/1.html je reçois ces symboles étranges:

{[sF w # Y \ AI (tY dϯ M% 9 @ Cw ~ I (v ں ʑ y t k2z o y .^~ WɌ e Ҳ ]? C Kf = v 0 3? Y`Y _̘gY | fY \ Q2 M nV iz g b $ W _a c C5

Comment puis-je résoudre ce problème

Répondre

1

de Nevermind X) en fait, il était juste que la sortie a été compressé en zip, donc si vous voulez résoudre si vous avez le même problème il suffit d'ajouter gzip: vrai dans la demande Ex:

request({url: '*****', gzip: true}, function(err, res, html){ 

    if (!error && response.statusCode == 200) { 

    //Do something 

    } 

}); 
0

Vous n'avez pas besoin de node.js pour quelque chose d'aussi simple. Le moyen le plus simple de gratter un site est de le charger dans un cadre iFrame caché, puis de simplement parcourir les tableaux d'éléments dont vous avez besoin.

Le document chargé vous donne tout dans des tableaux comme ceux-ci ...

Frame.contentWindow.document.forms 

Frame.contentWindow.document.scripts 

Frame.contentWindow.document.styleSheets 

Frame.contentWindow.document.embeds 

Frame.contentWindow.document.cookie 

Frame.contentWindow.document.images 

Frame.contentWindow.document.links 

Et ainsi de suite ...