2010-03-18 5 views
-1

Je veux analyser le fichier html, fichier pdf, csv et texte file.Now analyse syntaxique pour quel type de fichier (spécifié ci-dessus) est plus facile et efficace?Quel type de fichier analyse plus facile et efficace et bon? (Html, pdf, csv, texte)

Parce que je veux analyser pdf, html, csv et fichier texte dans le code d'analyse syntaxique commun si possible.

Et supposons maintenant si l'analyse syntaxique pour le HTML est plus facile et efficace alors:

Je vais écrire le code d'analyse syntaxique pour le fichier html et essayer de convertir le fichier pdf dans le fichier html (si possible) de sorte que le code écrit pour l'analyse du fichier html fonctionnera également pour le fichier pdf également.

Et donc je vais essayer de convertir pdf, CSV et fichier texte en fichier html. Et écrire le code pour l'analyse du fichier html et donc ce code analysera html, pdf, csv et fichier texte.

So (1) Quel type d'analyse syntaxique de fichiers est plus facile et efficace (pdf, csv, html, texte)? (2) Et la conversion de fichiers (pdf, texte, html, csv) entre eux est possible. Comme si l'analyse syntaxique html plus facile alors pdf au format html, texte au format html et csv au format html.

+0

Quelles informations souhaitez-vous extraire de vos fichiers? Les fichiers PDF peuvent stocker beaucoup plus que des fichiers texte (images, par exemple), donc la conversion d'un PDF arbitraire en un texte n'est pas facile. – Jens

+0

@Jens De chaque type de fichier, je veux extraire des informations de table. – Harikrishna

+0

De loin le plus simple est CSV, il ne devient pas plus simple de parsting des données tabulaires.La plupart du temps comme un fichier texte est le même mais la virgule C peut être n'importe quoi, mais nous appelons toujours ce CSV où le C est un caractère. – kenny

Répondre

3

Vous ne pouvez pas analyser tous les types de fichiers ci-dessus avec le même code d'analyseur.

Le format de texte le plus simple - CSV et HTML sont les fichiers texte. Cela dit, cela ne signifie pas qu'ils sont simples à analyser. Cela dépend vraiment du formatage qu'ils ont.

Les fichiers PDF sont de nature binaire, ce qui nécessite un analyseur différent.

En général, plus structuré les données, plus l'analyse syntaxique (donc, CSV serait plus facile et probablement le plus rapide).

Je suggère d'utiliser l'analyseur existant au lieu d'écrire le vôtre.

Il existe des bibliothèques qui analysent CSV et d'autres types de texte structuré (délimité par des tabulations par exemple) - voir FileHelpers. Pour l'analyse HTML, il existe le HTML Agilty Pack.

Il existe de nombreux parseurs PDF, gratuits et commerciaux.

+0

Bien sûr que vous pouvez. Mais la conversion du PDF nécessite l'analyse du PDF et la conversion de l'arbre d'analyse en HTML. – Oded

+0

+1. HTML Agility Pack est une excellente suggestion. Considérez la PdfBox gratuite ou iTextSharp pour PDF. Ou pour un petit $ j'utilise QuickPDF qui est vraiment bon. – kenny

+0

@Harikrishna - Je ne comprends pas votre option 2. Comment convertissez-vous le format PDF en HTML? Si ce n'est pas dans le code, utilisez juste un analyseur HTML après la conversion des fichiers PDF. – Oded

0

Regardez simplement les fichiers dans un éditeur de texte.

Devrait être clairement évident lequel sera le plus facile.

0

html, csv et l'analyse de texte est tout aussi facile, ne peut pas dire qui est le plus approprié, sans savoir ce que les données dans l'espoir d'analyser est. Il n'y a aucune difficulté à les convertir tant que vous savez ce que vous voulez faire.

pdf est un autre jeu de balle, ça va être beaucoup plus difficile, et va impliquer third party library pour extraire le texte à partir d'abord.

+0

@Paul Creasey. De chaque type de fichier je veux extraire des informations de table. – Harikrishna

Questions connexes