Analyse d'éléments spécifiques à partir d'un très gros fichier HTML

J'ai un très gros fichier HTML (plusieurs mégaoctets). Je sais que les données que je veux sont sous quelque chose comme <div class=someName>here</div>Analyse d'éléments spécifiques à partir d'un très gros fichier HTML

Quelle est une bonne bibliothèque pour analyser la page HTML afin que je puisse parcourir les éléments et saisir chaque someName? Je veux le faire en C#, Python ou C++.

Source

2009-04-11 Anonymous

Xerces est bien documenté, soutenu et testé. (C++)

http://xerces.apache.org/xerces-c/

(oui, il est un analyseur XML, mais il devrait faire l'affaire)

Source

2009-04-11 01:29:01 cgp

J'utiliser Python et BeautifulSoup pour le travail. C'est très solide pour gérer ce genre de choses. Pour votre cas, vous pouvez utiliser SoupStrainer pour que BeautifulSoup analyse uniquement les DIV dans le document qui contient la classe que vous voulez, de sorte qu'il n'a pas besoin de tout avoir en mémoire.

Par exemple, disons que votre document ressemble à ceci:

<div class="test">Hello World</div> 
<div class="hello">Aloha World</div> 
<div>Hey There</div>

Vous pouvez écrire ceci:

>>> from BeautifulSoup import BeautifulSoup, SoupStrainer 
>>> doc = ''' 
...  <div class="test">Hello World</div> 
...  <div class="hello">Aloha World</div> 
...  <div>Hey There</div> 
... ''' 
>>> findDivs = SoupStrainer('div', {'class':'hello'}) 
>>> [tag for tag in BeautifulSoup(doc, parseOnlyThese=findDivs)] 
[<div class="hello">Aloha World</div>]

Source

2009-04-11 01:29:21

Le Html Agility Pack est une option stellaire si vous voulez utiliser

Source

2009-04-11 01:37:30

Sounds comme un cas pour les bonnes vieilles expressions régulières.

Entrée:

<div class="test">Hello World</div> 
<div class="somename">Aloha World</div> 
<div>Hey There</div>

RegEx:

\<div\sclass\=\"somename\"\>(?<Text>.*?)\<\/div\>

Rendement:

Aloha World (note: In a single group named Text)

ont probablement besoin de tenir compte pour enfermer les citations manquantes etc ...

Bien avec Regula r expressions maintenant vous avez two problems.

Source

2009-04-11 10:42:33 Codebrain

L'ironie est agréable. Mais, il n'est pas facile d'upvote des réponses quand elles sont de la forme "ne fais pas ceci" –

... maintenant avec moins d'ironie – Codebrain

Essayez TinyXML. (Analyseur XML C++)

Source

2009-04-12 15:07:07

Analyse d'éléments spécifiques à partir d'un très gros fichier HTML

Répondre

Questions connexes