2017-05-25 1 views
-1

J'essaye de développer un outil de recherche qui chercherait les mots dans tous les PDF, et les résultats énuméreraient tous les PDF contenant le mot ou le terme à l'intérieur. Je suis un débutant complet et je n'ai aucune idée de comment ça se passe. J'ai essayé de chercher sur internet et j'ai obtenu une source ie https://github.com/skfaisal93/AnyWhereInFilesAfficher les fichiers pdf qui contiennent un mot-clé spécifique

Le lien de projet ci-dessus fonctionne bien avec les fichiers txt, css et php mais ne fonctionne pas avec les extensions pdf.

toute idée ou solution sera bonne. Merci d'avance.

Répondre

1

Vous pouvez utiliser PDF2Text Class pour convertir le pdf en texte et, après cela, rechercher dans le texte à propos de vos mots. Je suggère fortement pour de meilleures performances que vous fassiez cette routine lorsque vous stockez les fichiers PDF dans votre système, en sauvegardant dans une base de données avec 2 tables, 1 avec les noms pdfs et autres (1-N) avec le texte pour les recherches futures. TL; DR Ce dont vous avez besoin c'est OCR/extraire le fichier, le stocker et faire la recherche en texte intégral avec quelques commandes de la base de données ou du backend.

Avec la classe PDF2Text vous pouvez faire:

include('class.pdf2text.php'); 
$a = new PDF2Text(); 
$a->setFilename('youfile.pdf'); 
$a->decodePDF(); 
//use the db you want 
sql = "insert into TABLEPDF (name, content) VALUES ('youfile', $a->output())"; 

Après cela, lorsque l'utilisateur a mis les mots-clés pour rechercher dans votre entrée, il est recherche juste dans votre base de données, l'inscription après la recherche (si les num_rows> 0) les pdfs qui contiennent des mots-clés: que

$query = "SELECT name FROM TABLEPDF where content like '%$keyword%'; 

Vous pouvez utiliser des classes OCR aussi, l'amélioration des fichiers acceptés par le système: http://phpocr.sourceforge.net/ https://github.com/thiagoalessio/tesseract-ocr-for-php

+1

C'est exactement la réponse que je cherchais. Merci pour la solution –