Je souhaite regrouper de manière incrémentielle des documents texte en les lisant en tant que flux de données, mais il semble y avoir un problème. La plupart des options de pondération à terme sont basées sur un modèle d'espace vectoriel utilisant TF-IDF comme poids d'une entité. Cependant, dans notre cas, l'IDF d'un attribut existant change avec chaque nouveau point de données et donc le cluster précédent ne reste plus valide et donc aucun algorithme populaire comme CluStream, CURE, BIRCH ne peut être appliqué qui suppose des données statiques dimensionnelles fixes. Est-ce que quelqu'un peut me rediriger vers une recherche existante liée à ceci ou donner des suggestions? Merci !comment regrouper des flux de données en évolution
Répondre
est ici une idée du haut de ma tête:
Quoi de vos données d'entrée comme? Je devine qu'il est au moins similaire sur le thème, de sorte que vous pouvez commencer avec un dictionnaire de phrases de base et l'utiliser pour idf
. Apache Lucene est un excellent moteur d'indexation. Puisque vous avez un dictionnaire de base, vous pouvez exécuter kmeans ou ce que vous voulez. Au fur et à mesure que les documents arrivent, vous devrez reconstruire le dictionnaire à une certaine fréquence (qui peut être déchargée sur un autre thread/machine/etc) et ensuite re-cluster. Avec les données indexées dans un moteur flexible hautes performances comme Lucene, vous pouvez exécuter des requêtes même lorsque de nouveaux documents sont indexés. Je parie que si vous faites des recherches sur different clustering algorithms vous trouverez de bonnes idées.
Quelques papiers intéressants/liens:
- http://en.wikipedia.org/wiki/Document_classification
- http://www.scholarpedia.org/article/Text_categorization
- http://en.wikipedia.org/wiki/Naive_Bayes_classifier
Sans plus d'informations, je ne vois pas pourquoi vous ne pourriez pas re-groupe tous les temps dans un moment. Vous pourriez jeter un oeil à certains des systèmes de recommandation déjà là-bas.
Avez-vous regardé
TF-ICF: A New Term Weighting Scheme for Clustering Dynamic Data Streams
- 1. comment dessiner des graphiques en constante évolution
- 2. Comment regrouper des éléments similaires dans un flux d'activité
- 3. Passing en constante évolution des chaînes de requête PHP
- 4. Regrouper des données avec Linq ou non?
- 5. Comment regrouper des données dans une vue ASP.NET MVC?
- 6. Comment regrouper les données dans des seaux dans Microsoft SQL
- 7. MVC évolution et améliorations
- 8. évolution des contraintes à la volée
- 9. Les fichiers mappés en mémoire sont-ils défectueux pour les données en constante évolution?
- 10. Sql Server Regrouper des données groupées et des rapports Crystal
- 11. Comment regrouper des doublons d'une collection?
- 12. NSTimer avec NSTimeInterval en constante évolution?
- 13. Requête SQL Server pour regrouper des données de date séquentielles
- 14. Comment stocker efficacement des ensembles de données en constante évolution (résultats de recherche) pour les rapports périodiques
- 15. En Java - Regrouper des valeurs similaires
- 16. Comment gérer les données en constante évolution et les indices SOLR?
- 17. comment regrouper la division de données par fonction de division
- 18. Comment organiser les ressources de l'équipe avec des clients en constante évolution/exigences du projet
- 19. Gestion des données de flux de paiement
- 20. cacher des exectables en utilisant ADS (flux de données alternatifs)
- 21. Mise en mémoire tampon des données de flux
- 22. Comment regrouper des expressions dans NHibernate?
- 23. Recueillir des données de Google Résultat flux
- 24. Comment regrouper des éléments par plage de dates dans XSLT?
- 25. Comment puis-je regrouper les données hors d'une recherche google
- 26. Regrouper des dates dans Django
- 27. comment générer un flux de données brutes?
- 28. Comment puis-je convertir un flux de données en texte?
- 29. Comment regrouper des données de modèle d'enregistrement d'activation pour une période donnée?
- 30. Exposer des données dans un flux d'atomes
ressemble à quelque chose d'utile, je vais regarder cette one..and mise à jour ici. Merci. – user352951