J'essaie de travailler sur un projet de classement de pages.Python: Récupération et analyse de texte à partir de fichiers html
Je veux faire un index (dictionnaire) qui ressemble à ceci:
file1.html -> [[chat, a mangé, la nourriture, bu, lait], [file2.html, file3.html]]
file2.html -> [[chien, aboyé, couru, parti], [fichier1.html, fichier4.html]]
Récupérer des liens est facile - cherchez des étiquettes d'ancrage.
Ma question est - comment puis-je chercher du texte? Le texte dans les fichiers html n'est pas enfermé dans des balises comme <p>
Merci d'avance pour toute l'aide
Oui, j'utilise beautifulsoup, malheureusement, je suis incapable d'analyser le texte qui n'est pas inclus dans les balises – csguy11