Je suis intéressé à rassembler un grand corpus de texte provenant de divers sites Web. Le résultat aura beaucoup de html. Existe-t-il un moyen facile de se débarrasser du HTML pour ne plus avoir que des chaînes de mots que je peux ensuite analyser? Je ne me dérange pas de payer, mais je préfère les outils gratuits et rapides. J'ai regardé cela et il semble que vous pouvez le faire manuellement en utilisant des paquets comme de la belle soupe en python ou en utilisant des services payants comme import.io pour nettoyer automatiquement les données lors de la mise au rebut.Quel est le moyen le plus simple de supprimer du code HTML à partir de données Web mises au rebut afin de ne laisser que des chaînes de mots?
Mais y at-il de meilleurs outils avaliable pour le décapage html à partir du texte brut?