2009-04-28 11 views
0

Comment est-ce que je peux employer une expression régulière pour extraire des groupes de html qui seront formatés comme ceci:Comment utiliser regex pour extraire des groupes de données de questions-réponses à partir de fichiers html?

.

. 
    .irrelevant html... 
    <b>Question 6</b><br> 

lots of text 
<p> 

lots of text 
<p> 
<br> 

<b>Answer 6</b><br> 
lots of text 
<p> 

lots of text 
<p> 

lots of text 
<p> 

more text 
<p> 
<HR> 

<IMG SRC="/images/image.jpg" alt="alt text" width=480 height=360 hspace=2 vspace=2> 
<p> 

<i>caption text</i> 

Il peut y avoir une quantité variable de paires question-réponse. Et le code d'image peut être n'importe où (entre Question et Réponse, ou après la réponse) ...

La seule information que je veux extraire est le numéro de question, le texte sans le code html, le Imr src et alt et légende.

+0

Y a-t-il un langage/environnement particulier avec lequel vous le feriez? Aussi, est-ce une tâche ponctuelle contre un fichier spécifique, ou quelque chose qui sera fait régulièrement, et quelle pourrait être la cohérence de l'entrée? –

+0

Salut Peter, c'est une tâche unique et est terminée :) Il ya 350-400 pages d'un format très similaire et mon analyseur fonctionne sur 95% d'entre eux. Et j'ai également développé un analyseur similaire séparé pour d'autres groupes de centaines de pages similaires. Mission accomplie. –

+0

Salut Gordon, pourriez-vous poster l'analyseur que vous avez utilisé comme une réponse, pour le bénéfice des futurs lecteurs de cette question? –

Répondre

1

Vous pouvez essayer d'utiliser quelque chose comme Watir. Vous pouvez ensuite effectuer une recherche par programme dans le dom et trouver ce dont vous avez besoin.

Questions connexes