J'ai des milliers de grands ensembles de données de nuage d'étiquettes; Je peux récupérer un nuage de tags pondérés pour chaque jeu avec une simple instruction select/groupe (par exemple)Comparer de grands ensembles de nuages d'étiquettes pondérés?
SELECT tag, COUNT(*) AS weight
FROM tags
WHERE set_id = $set_id
GROUP BY tag
ORDER BY COUNT(*) DESC
Ce que je voudrais savoir est ce - quelle est la meilleure façon de comparer les nuages de tags pondérés et trouver d'autres ensembles qui sont les plus similaires, en tenant compte du poids (le nombre d'occurrences dans l'ensemble) et peut-être même en calculant un score de comparaison, le tout en une seule instruction quelque peu effieciente?
J'ai trouvé que le web manquait de littérature de qualité sur le sujet, je l'ai trouvé un peu pertinent et j'ai essayé de faire abstraction de mon exemple pour le rendre globalement applicable.
Bien que la théorie semble solide, je ne sais pas comment cela serait mis en œuvre lors de la comparaison à la volée de milliers d'ensembles de balises, dans une seule déclaration. – JeremyFelix
Habituellement, ces tâches intensives ne sont pas nécessaires pour être en temps réel. vous n'avez pas vraiment besoin d'être capable de les faire dans MySQL, il suffit d'avoir les nuages et de les travailler de manière asynchrone. Puis stocker les résultats dans la base de données. – Jack