0

Je souhaite trouver l'occurrence d'un mot particulier dans une page Web donnée en entrée. J'ai utilisé la fenêtre Pyramid-Sliding, où j'ai généré des fonctions HOG (Histogram of Gradients) pour toutes les fenêtres coulissantes. Pour l'instant, je compare les fonctionnalités HOG de toutes les fenêtres avec les fonctionnalités HOG du mot que je veux extraire.Recherche d'un mot particulier dans une page Web à l'aide des fonctions HOG et de la fenêtre coulissante

Pour la comparaison des deux vecteurs de caractéristiques HOG, je prends juste sommation (vector1 (i) - vector2 (i)) pour tout i.

Cependant, les résultats sont inférieurs aux attentes.

Ma question est qu'il peut y avoir un meilleur système de comparaison pour comparer les fonctionnalités HOG de chaque fenêtre avec celle du mot que je veux trouver. Ou devrais-je former un classificateur comme SVM, pour classer les fonctionnalités HOG d'une fenêtre.

Pour la formation du classificateur, je peux avoir 100 à 200 éléments maximum pour le mot que je veux trouver dans mon ensemble de données. Et puisque pour SVM, il est préférable d'avoir un nombre égal d'éléments de données vrai et faux dans l'ensemble de données, comment limiter les représentations non-mots (éléments faux) à 100-200. Pour les éléments de données non-mot dans l'ensemble de la formation, je dois:

1. ICDAR-2003 (this word data-set do not contain the word I want to extract) 

2. CIFAR image data set 

La raison pour laquelle je ne suis pas extrais/trouver ce mot dans le code html, est parce que le mot peut se produire dans une image aussi.

En outre, puisque le mot que je veux trouver est fixe, combien d'images du mot devrais-je avoir dans l'ensemble de données.

Répondre

0

Si vous avez la police fixe et que la recherche de mot particulier, voici solution simple:

https://stackoverflow.com/a/9647509/8682088

Vous devez extraire la boîte de texte, redimensionner à par exemple 40x10 pixels. Les valeurs de pixels en niveaux de gris pourraient être votre vecteur de caractéristiques. Ensuite, vous pourriez former votre SVM. C'est primitif, mais étonnamment efficace.

Fonctionne parfaitement avec une police fixe et des symboles simples.

+0

Hey! C'est le problème. Je veux former un SVM, mais je suis confus au sujet de l'ensemble de données. Les vrais exemples d'entraînement peuvent être des représentations multiples du mot que je veux rechercher (bien qu'ils soient presque les mêmes). Cependant, bien que je puisse avoir une quantité limitée de données positives (disons 200-300 exemples/images), comment puis-je choisir mes données négatives (données ce n'est pas le mot que je veux chercher) – user8788828