Dans le cadre de mon projet de recherche universitaire, j'essaie de construire une application dans laquelle j'aurai un ensemble d'URL récupérées sur le web. La tâche consiste à classer chacune de ces URL dans une catégorie donnée.classification en utilisant lingpipe
Par exemple, l'URL suivante concerne le cricket http://www.espncricinfo.com/icc_cricket_worldcup2011/content/current/story/499851.html Si j'indique cette URL particulière au classificateur, la catégorie de sortie doit être "Sports". Pour cela, j'utilise le classificateur lingpipe. J'ai suivi le tutoriel de classification et j'ai exécuté le démo présent dans le dossier démo. J'ai téléchargé 20 jeux de nouvelles téléchargés à partir du lien suivant. Par la suite, j'ai réduit la taille de l'échantillon d'apprentissage de 20 à 8 et j'ai exécuté la démo de classification. Il pourrait entraîner avec succès les données et pourrait également tester les données. Mais le fait est que dois-je former le classificateur chaque fois que je veux tester la catégorie de documents? Si je cours la classification des documents, il faut 4 minutes pour l'entraînement et le test des données. Puis-je stocker une fois les données entraînées et effectuer la classification plusieurs fois?
Par ailleurs, S.O. vous demande de vous abstenir de signer. (Il est également considéré comme une mauvaise forme de dire: «S'il vous plaît, essayez de trouver le temps de m'aider»). [Voir FAQ] (http://stackoverflow.com/faq) – Crisfole