Supposons que j'ai le code HTML suivant:Trouver l'index de caractère d'un nœud dans son nœud parent avec hpricot
html = Four score and seven <b>years ago</b>
Je veux analyser cela avec hpricot:
doc = Hpricot(html)
Trouver le nœud <b>
:
node = doc.at('b')
puis obtenir l'index de caractère du nœud <b>
dans son parent:
node.character_index
=> 22
Comment puis-je faire (à savoir, quelle est la version réelle de la fonction character_index()
je viens d'inventer)?
Voir aussi ce sujet Ruby-Forum: http: // www .ruby-forum.com/topic/167535 où cette même question est posée par quelqu'un qui veut vérifier les liens. Points importants: ** 1) ** Pourquoi faire quand "La position du caractère n'a pas de sens dans un DOM XML et HTML Whitespace peut changer de position sans affecter le DOM" et ** 2) ** Utiliser libxml comme alternative depuis "libxml stocke le numéro de ligne de chaque élément, ce qui vous permet d'extraire tous les liens, de les vérifier et d'imprimer element.line_num pour chacun des éléments qui échouent" – atomicules