Analyse syntaxique de la balise pré-ligne ligne par ligne à l'aide de python

J'ai un fichier HTML qui contient des données dans les balises pré. Je veux analyser les données dans les pré-étiquettes ligne par ligne et effectuer un tri basé sur l'horodatage dans chaque ligne. Comment puis-je faire cela en utilisant python.Analyse syntaxique de la balise pré-ligne ligne par ligne à l'aide de python

<pre>**Date Time DataFeed** 
10/01/1994 10:00:00 Go_to_sleep 
....... 
.......</pre>

Source

2017-03-02 Rendevou

In [1]: import bs4 

In [2]: text = '''<pre>**Date Time DataFeed** 
    ...: 10/01/1994 10:00:00 Go_to_sleep 
    ...: 10/01/1994 10:00:00 Go_to_sleep 
    ...: 10/01/1994 10:00:00 Go_to_sleep 
    ...: 10/01/1994 10:00:00 Go_to_sleep</pre>''' 

In [3]: soup = bs4.BeautifulSoup(text, 'lxml') 

In [4]: soup.pre.get_text() 
Out[4]: '**Date Time DataFeed**\n10/01/1994 10:00:00 Go_to_sleep\n10/01/1994 10:00:00 Go_to_sleep\n10/01/1994 10:00:00 Go_to_sleep\n10/01/1994 10:00:00 Go_to_sleep' 
In [6]: soup.pre.get_text().splitlines() 
Out[6]: 
['**Date Time DataFeed**', 
'10/01/1994 10:00:00 Go_to_sleep', 
'10/01/1994 10:00:00 Go_to_sleep', 
'10/01/1994 10:00:00 Go_to_sleep', 
'10/01/1994 10:00:00 Go_to_sleep']

En BS4, le code html avec saut de ligne sont convertis en \n, vous pouvez utiliser splitlines() de la scinder en liste.

Source

2017-03-02 05:35:29

cela fonctionne mais le problème est que le fichier est vraiment volumineux et qu'il faut beaucoup de temps pour le traiter et l'afficher. Y a-t-il une méthode plus rapide – Rendevou

Analyse syntaxique de la balise pré-ligne ligne par ligne à l'aide de python

Répondre

Questions connexes