2010-10-20 3 views
1

J'essaie de rayer l'information de Google Translate comme un exercice d'apprentissage et je ne peux pas comprendre comment atteindre le contenu de cette balise span.Comment puis-je utiliser Python pour obtenir le contenu de cette balise span?

<span title="Hello" onmouseover="this.style.backgroundColor='#ebeff9'"         
     onmouseout="this.style.backgroundColor='#fff'"> 
    Hallo 
</span> 

Comment utiliser Python pour accéder au contenu. Puisque le paramètre 'title' de cette plage est dynamique, je suppose que je peux cibler cela comme un point d'entrée? Par exemple en essayant de traduire: Salut, bienvenue chez moi. Voulez-vous un verre de thé ou peut-être des biscuits?

résultats dans la sortie HTML suivant:

<span title="Hi, welcome to my house." 
onmouseover="this.style.backgroundColor='#ebeff9'" 
onmouseout="this.style.backgroundColor='#fff'"> 
    Hallo, mein Haus begrüßen zu dürfen. 
</span> 

Répondre

3

Commander BeautifulSoup

+0

A faire! Merci! Attendez, je viens de réaliser que je n'ai jamais importé un fichier .py différent. Comment pourrais-je «importer» ceci à mon projet? –

+0

Vous pouvez utiliser le gestionnaire de paquets Python pour l'installer, puis l'importer dans votre programme.http: //en.wikipedia.org/wiki/EasyInstall – Vishal

+0

La soupe B est livrée avec un script de configuration; lancez simplement 'python setup.py install'. – Cole

0
# -*- coding: utf-8 -*- 
def gettext(html): 
    for sp in myhtml.split("</span>"): 
     if "<span" in sp: 
      return sp.rsplit(">")[-1].strip() 

myhtml=""" 
<span title="Hello" onmouseover="this.style.backgroundColor='#ebeff9'" 
     onmouseout="this.style.backgroundColor='#fff'"> 
    Hallo 
</span> 
""" 

print gettext(myhtml) 

myhtml=""" 
<span title="Hi, welcome to my house." 
onmouseover="this.style.backgroundColor='#ebeff9'" 
onmouseout="this.style.backgroundColor='#fff'"> 
    Hallo, mein Haus begrüßen zu dürfen. 
</span> 
""" 

print gettext(myhtml) 

sortie

$ python mytranslate.py 
Hallo 
Hallo, mein Haus begrüßen zu dürfen. 
0

navires Python avec quelques parseurs XML et HTML.

Je suggère que vous regardez les parseurs qui viennent avec Python d'abord, puis regardez à parseurs tiers si vous ne trouvez aucun des modules inclus acceptables .

Questions connexes