2010-10-19 5 views
0

Je cherche des suggestions quant à la meilleure façon d'analyser le calendrier suivant ... http://www.ucd.ie/events/calendar. Je ne peux pas détecter un framework bien connu ni le trouver au format RSS/XML/JSON.Analyser HTML/Javascript dans une base de données MySQL

La seule façon d'analyser ce qui suit que je vois est d'analyser le HTML brut qui est loin d'être idéale d'autant plus que la plupart des balises sont repeditive .. un événement typique ressemble donc ..

<tr> 
      <td class="odd"> 
       <a href="http://www.ucd.ie/events/calendar?dt=d.en.66031&amp;f=week&amp;d=19/10/2010&amp;sd=Wednesday, 06 October 2010 - Wednesday, 01 December 2010&amp;c=null&amp;c=null&amp;c=null&amp;c=null&amp;c=null&amp;c=null&amp;c=null&amp;c=null&amp;c=null&amp;c=null&amp;c=null&amp;c=null&amp;c=null">Exchange Information Talk</a> 
       <p class="description">Information for students on spending a period of study abroad on exchange as part of their UCD degree</p> 
      </td> 
      <td class="odd">UCD International</td> 
      <td class="odd">A105 Newman Building</td> 
     </tr> 

Comme vous pouvez voir l'analyse de beaucoup d'entre eux à partir d'une page HTML ne va pas être amusant. Essentiellement, je me demande si quelqu'un a des suggestions sur la façon de m'y prendre? ou peut-être une façon plus intelligente de faire les choses? J'apprécierais vraiment toute aide car je suis coincé ne peux pas vraiment trouver d'alternatives.

Merci.

+0

Cela a été répondu à [plusieurs fois avant] (http://stackoverflow.com/search?q=html+dom+parsing). Sans connaître votre technologie spécifique, je ne peux pas faire de recommandation plus spécifique. –

Répondre

1

Si le site ne fournit pas un autre service alors ce code HTML, vous êtes bloqué avec l'analyse, mais les requêtes XPATH peuvent rendre votre vie beaucoup plus agréable que la simple correspondance de chaîne.

0

Vous pouvez l'essayer avec XPath, pour obtenir le lien que vous allez faire

//td[@class='odd']/a/@href 

mais il est allé briser chaque fois qu'ils changent le HMTL ouput

+0

n'y a-t-il aucun moyen de construire quelque chose qui fonctionnera automatiquement pour chaque cas? la sortie changera tous les jours. – Aidanc

+0

Non, c'est pourquoi les services Web sont faits pour, demandez à votre université. Et par "html ouput" je veux dire seulement la forme de la balise html, pas le contenu, donc je doute sérieusement qu'ils le changeront souvent (mais ils le peuvent). –

Questions connexes