Comment extraire tout le texte d'une page Web

J'utilise la bibliothèque JSoup pour extraire des textes dans des pages Web. Voici mon codeComment extraire tout le texte d'une page Web

Document doc; 

try { 
URL url = new URL(text); 


doc = Jsoup.parse(url, 70000); 

Elements paragraphs = doc.select("p"); 
for(Element p : paragraphs) 
{ 

    textField.append(p.text()); 
    textField.append("\n"); 
} 
} 
catch (Exception ex) 
{ 

    ex.printStackTrace(); 

}

Ici, je ne peux obtenir du texte qu'à partir de balises «p». Mais j'ai besoin de tous les textes de la page. Comment puis-je le faire? Cela pourrait être en bouclant à travers les nœuds, mais j'ai juste commencé à utiliser JSoup et pas très bien avec. S'il vous plaît aider.

Source

2013-10-09 Yohan Weerasinghe

avoir modifié ma réponse, laissez-moi savoir si toute confusion. – Jhanvi

Essayez ceci:

String text = Jsoup.parse(new URL("https://www.google.com"), 10000).text(); 
System.out.println(text);

Ici, 10000 est en millisecondes et fait référence à délai d'attente.

Source

2013-10-09 08:54:26 Jhanvi

Bonjour, Merci pour la réponse. Quoi qu'il en soit, il semble que je ne sois pas en train d'extraire du texte de wikipadia et tous les –

@Artificial_Intelligence je l'ai utilisé pour extraire du texte de Wikipedia, mais peut-être que mon exigence est différente. Par exemple http://en.wikipedia.org/wiki/Java_%28programming_language%29, j'ai utilisé cette URL dans le code ci-dessus. – Jhanvi

Vous pouvez utiliser Boilerpipe, car vous n'avez pas besoin de l'analyse HTML, mais uniquement de l'extraction de texte. Cela devrait être plus rapide et moins consommateur de CPU.

Exemple:

URL url = new URL("http://www.example.com/some-location/index.html"); 
// NOTE: Use ArticleExtractor unless DefaultExtractor gives better results for you 
String text = ArticleExtractor.INSTANCE.getText(url);

Extrait de: https://code.google.com/p/boilerpipe/wiki/QuickStart

Source

2013-10-10 11:10:53 Stefan

Comment extraire tout le texte d'une page Web

Répondre

Questions connexes