2010-08-26 9 views
0

Je ces fichiers à analyser (à partir de déchirage) avec Python:Parse html avec ajax JSON dans

some HTML and JS here... 
SomeValue = 
{ 
    'calendar': [ 
    {  's0Date': new Date(2010, 9, 12), 
      'values': [ 
        { 's1Date': new Date(2010, 9, 17), 'price': 9900 }, 
        { 's1Date': new Date(2010, 9, 18), 'price': 9900 }, 
        { 's1Date': new Date(2010, 9, 19), 'price': 9900 }, 
        { 's1Date': new Date(2010, 9, 20), 'price': 9900 }, 
        { 's1Date': new Date(2010, 9, 21), 'price': 9900 }, 
        { 's1Date': new Date(2010, 9, 22), 'price': 9900 }, 
        { 's1Date': new Date(2010, 9, 23), 'price': 9900 }] 
    }, 
    'data': [{ 
    index: 0, 
    serviceClass: 'Economy', 
    prices: [9900, 320.43, 253.27], 
    eTicketing: true, 
    segments: [{ 
      indexSegment: 0, 
      stopsCount: 1, 
      flights: [{ 
        index: 0, 

... and a lot of nested data and again HTML and JS... 

je dois l'analyser et d'extraire toutes les données JSON. Maintenant j'utilise regex avec le nettoyage de toutes les fonctions '\ n' et '\ t' et eval() pour le convertir en dictionnaire Python. Je n'aime vraiment pas cette solution, eval() en particulier. Mais j'ai regardé BeautifulSoup et lxml, et n'ai pas trouvé quelque chose qui aidera à l'analyser.
Pouvez-vous suggérer quelque chose de mieux que regex et eval() pour cette tâche?
page par exemple: http://codepaste.ru/3830/

+0

Est-ce que tous les JS sont inclus dans les balises '