2013-02-14 2 views
1

Je suis en train de lire le code source à partir du site Web en utilisant le code suivantla source de la page Extraction html

import java.io.BufferedReader; 
import java.io.InputStreamReader; 
import java.net.URL; 
import java.net.URLConnection; 

public class GrabHTML { 

public static void Connect() throws Exception{ 

//Set URL 
URL url = new URL("http://www.google.ca/"); 
URLConnection spoof = url.openConnection(); 

//Spoof the connection so we look like a web browser 
spoof.setRequestProperty("User-Agent", "Mozilla/4.0 (compatible; MSIE 5.5; Windows NT 5.0; H010818)"); 
BufferedReader in = new BufferedReader(new InputStreamReader(spoof.getInputStream())); 
String strLine = ""; 

//Loop through every line in the source 
    while ((strLine = in.readLine()) != null){ 

//Prints each line to the console 
    System.out.println(strLine); 
    } 

System.out.println("End of page."); 
} 

public static void main(String[] args){ 

try{ 
    //Calling the Connect method 
    Connect(); 
}catch(Exception e){ 

} 
} 
} 

Mais il ne lit que une partie du code source. Quand je vois le 'View Source' du navigateur, Google.com a plus de données.

+0

http://jsoup.org/ mérite d'être mentionné –

+0

Ce code fonctionne très bien pour moi. Je soupçonne que la propriété User-Agent ne correspond pas à votre navigateur, et que le site Google diffuse des données légèrement différentes dans chaque cas. – 808sound

Répondre

0

Supprimer sous déclaration

spoof.setRequestProperty ("User-Agent", "Mozilla/4.0 (compatible; MSIE 5.5, Windows NT 5.0; H010818)");

Questions connexes