Je souhaite trouver l'occurrence d'un mot particulier dans une page Web donnée en entrée. J'ai utilisé la fenêtre Pyramid-Sliding, où j'ai généré des fonctions HOG (Histogram of Gradients) pour toutes les fenêtres coulissantes. Pour l'instant, je compare les fonctionnalités HOG de toutes les fenêtres avec les fonctionnalités HOG du mot que je veux extraire.Recherche d'un mot particulier dans une page Web à l'aide des fonctions HOG et de la fenêtre coulissante
Pour la comparaison des deux vecteurs de caractéristiques HOG, je prends juste sommation (vector1 (i) - vector2 (i)) pour tout i.
Cependant, les résultats sont inférieurs aux attentes.
Ma question est qu'il peut y avoir un meilleur système de comparaison pour comparer les fonctionnalités HOG de chaque fenêtre avec celle du mot que je veux trouver. Ou devrais-je former un classificateur comme SVM, pour classer les fonctionnalités HOG d'une fenêtre.
Pour la formation du classificateur, je peux avoir 100 à 200 éléments maximum pour le mot que je veux trouver dans mon ensemble de données. Et puisque pour SVM, il est préférable d'avoir un nombre égal d'éléments de données vrai et faux dans l'ensemble de données, comment limiter les représentations non-mots (éléments faux) à 100-200. Pour les éléments de données non-mot dans l'ensemble de la formation, je dois:
1. ICDAR-2003 (this word data-set do not contain the word I want to extract)
2. CIFAR image data set
La raison pour laquelle je ne suis pas extrais/trouver ce mot dans le code html, est parce que le mot peut se produire dans une image aussi.
En outre, puisque le mot que je veux trouver est fixe, combien d'images du mot devrais-je avoir dans l'ensemble de données.
Hey! C'est le problème. Je veux former un SVM, mais je suis confus au sujet de l'ensemble de données. Les vrais exemples d'entraînement peuvent être des représentations multiples du mot que je veux rechercher (bien qu'ils soient presque les mêmes). Cependant, bien que je puisse avoir une quantité limitée de données positives (disons 200-300 exemples/images), comment puis-je choisir mes données négatives (données ce n'est pas le mot que je veux chercher) – user8788828