Je cherche à implémenter un indexeur simple en PHP. Oui, je comprends que PHP n'est pas le meilleur outil pour la tâche, mais je veux le faire quand même. La raison d'être est simple: j'en veux un, et en PHP.Comment pourrait-on implémenter un index forward en PHP?
Nommons quelques hypothèses de base:
L'ensemble se compose de Interweb environ cinq mille HTML et/ou documents en texte brut. Chaque document réside dans un domaine particulier (UID). Aucun autre format propriétaire/arcane n'existe dans notre Interweb cavemanesque imaginaire.
Le résultat de l'algorithme d'indexation avant basé sur PHP impressionnant devrait être le long des lignes de:
UID1 -> index.html -> hélène, elle, était, champion, avec des taches de rousseur
UID1 -> foo.html -> le poulet, les agriculteurs, aller, maison, manger, moutons
UID2 -> blah.html ->, à la semaine, sur, badgerwatch
UID2 -> gah.txt -> un, un, et, un, est, non, numberwang
Idéalement, j'aimerais voir des solutions qui tiennent compte, même à leur plus élémentaire, des concepts de segmentation de la segmentation de mots/de mots/de marquage de la parole. Bien sûr, je ne sais que c'est un vœu pieux, et donc humiliera toute tentative digne de parsing lesdits documents imaginaires par:
- Extraire le vrai truc de contenu textuel dans le document comme une liste de mots dans l'ordre dans qui ils sont présentés.
- Pendant ce temps, en ignorant tous les déchets tels que
<script>
et<html>
balises pour calculer une liste des UIDs (qui pourrait être, par exemple, un domaine) suivi du nom du document (la ressource dans le domaine), et enfin la liste de mots pour ce document. Je me rends compte que les balises HTML jouent un rôle important dans le placement sémantique du texte dans un document, mais à ce stade je ne se soucie pas. - Gardez à l'esprit une solution qui peut construire la liste de mots tandis que la lecture du document est plus froide que celle qui doit lire dans l'ensemble du document en premier.
A ce stade, je ne me soucie pas des conditions de stockage. Même un ensemble rudimentaire de déclarations «d'impression» suffira.
Merci d'avance, j'espère que c'était assez clair.
+1 pour des exemples de textes géniaux – Artelius
Est-ce votre devoir? On dirait que vous voulez juste un simple analyseur de fichiers .. – Louis
@Lou Homework? Come – karim79