2011-05-18 3 views
4

Dans le cadre de mon projet de recherche universitaire, j'essaie de construire une application dans laquelle j'aurai un ensemble d'URL récupérées sur le web. La tâche consiste à classer chacune de ces URL dans une catégorie donnée.classification en utilisant lingpipe

Par exemple, l'URL suivante concerne le cricket http://www.espncricinfo.com/icc_cricket_worldcup2011/content/current/story/499851.html Si j'indique cette URL particulière au classificateur, la catégorie de sortie doit être "Sports". Pour cela, j'utilise le classificateur lingpipe. J'ai suivi le tutoriel de classification et j'ai exécuté le démo présent dans le dossier démo. J'ai téléchargé 20 jeux de nouvelles téléchargés à partir du lien suivant. Par la suite, j'ai réduit la taille de l'échantillon d'apprentissage de 20 à 8 et j'ai exécuté la démo de classification. Il pourrait entraîner avec succès les données et pourrait également tester les données. Mais le fait est que dois-je former le classificateur chaque fois que je veux tester la catégorie de documents? Si je cours la classification des documents, il faut 4 minutes pour l'entraînement et le test des données. Puis-je stocker une fois les données entraînées et effectuer la classification plusieurs fois?

+0

Par ailleurs, S.O. vous demande de vous abstenir de signer. (Il est également considéré comme une mauvaise forme de dire: «S'il vous plaît, essayez de trouver le temps de m'aider»). [Voir FAQ] (http://stackoverflow.com/faq) – Crisfole

Répondre

4

Vous devez sérialiser les modèles formés sur disque, puis vous pouvez les désérialiser et faire en sorte que le classificateur soit prêt à fonctionner.

Une fois que vous avez un classificateur formé jusqu'à l'utilisation

AbstractExternalizable.compileTo(classifier,modelFile); 

Pour écrire le modèle sur le disque.

Pour lire en vous aurez besoin

AbstractExternalizable.readObject(modelFile); 

Regardez le doc Java pour AbstractExternalizable.

Le modèle ne pourra pas accepter d'événements de formation supplémentaires car a été compilé.