Je veux analyser le fichier html, fichier pdf, csv et texte file.Now analyse syntaxique pour quel type de fichier (spécifié ci-dessus) est plus facile et efficace?Quel type de fichier analyse plus facile et efficace et bon? (Html, pdf, csv, texte)
Parce que je veux analyser pdf, html, csv et fichier texte dans le code d'analyse syntaxique commun si possible.
Et supposons maintenant si l'analyse syntaxique pour le HTML est plus facile et efficace alors:
Je vais écrire le code d'analyse syntaxique pour le fichier html et essayer de convertir le fichier pdf dans le fichier html (si possible) de sorte que le code écrit pour l'analyse du fichier html fonctionnera également pour le fichier pdf également.
Et donc je vais essayer de convertir pdf, CSV et fichier texte en fichier html. Et écrire le code pour l'analyse du fichier html et donc ce code analysera html, pdf, csv et fichier texte.
So (1) Quel type d'analyse syntaxique de fichiers est plus facile et efficace (pdf, csv, html, texte)? (2) Et la conversion de fichiers (pdf, texte, html, csv) entre eux est possible. Comme si l'analyse syntaxique html plus facile alors pdf au format html, texte au format html et csv au format html.
Quelles informations souhaitez-vous extraire de vos fichiers? Les fichiers PDF peuvent stocker beaucoup plus que des fichiers texte (images, par exemple), donc la conversion d'un PDF arbitraire en un texte n'est pas facile. – Jens
@Jens De chaque type de fichier, je veux extraire des informations de table. – Harikrishna
De loin le plus simple est CSV, il ne devient pas plus simple de parsting des données tabulaires.La plupart du temps comme un fichier texte est le même mais la virgule C peut être n'importe quoi, mais nous appelons toujours ce CSV où le C est un caractère. – kenny