2017-08-20 5 views
-2

Je suis intéressé à rassembler un grand corpus de texte provenant de divers sites Web. Le résultat aura beaucoup de html. Existe-t-il un moyen facile de se débarrasser du HTML pour ne plus avoir que des chaînes de mots que je peux ensuite analyser? Je ne me dérange pas de payer, mais je préfère les outils gratuits et rapides. J'ai regardé cela et il semble que vous pouvez le faire manuellement en utilisant des paquets comme de la belle soupe en python ou en utilisant des services payants comme import.io pour nettoyer automatiquement les données lors de la mise au rebut.Quel est le moyen le plus simple de supprimer du code HTML à partir de données Web mises au rebut afin de ne laisser que des chaînes de mots?

Mais y at-il de meilleurs outils avaliable pour le décapage html à partir du texte brut?

Répondre

-1

rubis et la pierre précieuse nokogiri (bibliothèque) sont probablement un bon endroit pour commencer. Vous avez mentionné Python, mais je ne l'ai pas tagué, donc je suis supposé que vous n'êtes pas sur python.

autour des sites Ramper, suivant les liens et obtenir tout le texte est assez simple, nokogiri a une méthode .text qui fait cela. En probabilité vous voulez faire un petit codage manuel pour chaque site pour affiner ce que vous obtenez. Je suis en train d'analyser les sites de listes de musique et je fais en moyenne environ 20 lignes de code unique par site.

Je dois mentionner est que vous devez d'abord voir s'il y a un certain type d'aliments XLM/RSS, ceux-ci sont beaucoup plus faciles à traiter que le contenu Web. Nokogiri peut vous aider avec ceci.

0

J'ai utilisé Jsoup dans mon projet pour extraire le texte des sites Web, il est simple à utiliser, et j'ai utilisé HtmlUnit pour cliquer sur des boutons dans le site Web pour charger plus de données.