Pour une tâche de devoirs, je dois écrire un programme qui supprime HTML d'un site Web et trouve ensuite des phrases dans le site Web. Quand je dis des phrases, je veux dire une sorte de manière arbitraire d'organiser le texte de sorte que les mots qui sont à proximité les uns des autres sont mis dans le même groupe. Je sais que cela semble très peu clair, mais l'attribution indique comment nous faisons cela est à notre propre interprétation de la façon de trouver des «phrases».JSOUP Recherche de groupes de mots
Actuellement, j'ai le code qui ressemble à:
Document doc = Jsoup.connect("http://oracle.com/").get();
String html = doc.body().toString();
System.out.println(html);
Ce qui me donnera une impression correcte de tous les différents mots qui apparaissent sur une page Web lors de l'analyse tout le html.
Mon problème principal est que je n'arrive pas à trouver un moyen d'analyser le HTML pour que je puisse rassembler ces groupes arbitraires (et je ne sais pas quel genre de critères je peux utiliser pour former arbitrairement ces groupes) " de mots).
Je sais que cette question semble terrible, mais je ne sais pas comment je peux l'affirmer, et je n'ai vraiment aucune idée de ce que je peux faire. La tâche qui m'a été confiée est extrêmement floue, et quand on me demande des éclaircissements, mon professeur me dit de l'interpréter moi-même. Je me demandais si quelqu'un avait des idées sur la façon d'analyser le HTML afin que les mots proches les uns des autres (peut-être dans des balises html similaires ou quelque chose) pourraient être filtrés comme la sortie actuelle, sauf peut-être après chaque phrase "il y a comme une nouvelle ligne ou quelque chose que je peux analyser.
Merci pour vos idées ou conseils.