2010-10-16 5 views
2

Je suis en train d'utiliser screencraping watir et je télécharge un fichier xls. quand j'ouvre ce fichier dans le bloc-notes, je trouve que c'est juste un tas de tables html. Y at-il une fonction ou une gemme qui convertira cette page en un ensemble de tableaux. toutes les idées sont appréciées.html table au tableau ruby ​​

+0

Montrez-nous le code. Ce que vous avez et ce que vous aimeriez en tirer. –

Répondre

1
  1. affinez à ...
  2. effacer les espaces
  3. Remplacer les onglets avec "
  4. Remplacer balises avec ",
  5. Remplacer le & & tags avec rien
  6. Remplacer les balises avec |
  7. Divisez les lignes par |
  8. diviser les champs avec ,

Vous pouvez simplifier un peu plus, mais qui est l'essentiel.

1

En général, il est simple de parcourir un fichier HTML avec une table et d'extraire des lignes et des colonnes tant qu'elles n'utilisent pas les attributs colspan ou rowspan. Ceux-ci gâchent le flux logique qui nécessite une certaine détection des lacunes qu'ils causent, et un besoin de combler les lacunes avec la valeur répétée des travées *. How do I parse an HTML table with Nokogiri? pourrait aider. En regardant les fichiers XLS sur mon bureau, je ne pense pas qu'ils soient en XML ou en HTML. Je ne suis pas sûr de ce que vous avez téléchargé. J'ai fait une recherche rapide et roo (http://roo.rubyforge.org/) semble être un bon point de départ.

1

XLS est un format binaire. Si vous voyez des tables HTML dans le contenu du fichier, cela signifie que vous n'avez probablement pas téléchargé le fichier correctement.

Comment le fichier XLS est-il téléchargé via Watir? Avez-vous besoin d'automatiser la fenêtre de téléchargement de fichiers, ou avez-vous simplement suivi un lien vers le fichier XLS et écrire le contenu dans un fichier?