Ce problème se décompose en quelques sous-problèmes du point de vue de l'apprentissage machine. D'abord, vous allez vouloir déterminer quelles sont les propriétés des nouvelles que vous souhaitez regrouper. Une technique courante consiste à utiliser 'word bags': juste une liste des mots qui apparaissent dans le corps de l'histoire ou dans le titre. Vous pouvez effectuer un traitement supplémentaire tel que la suppression de l'anglais courant "stop words" qui ne fournit aucune signification, comme "le", "parce que". Vous pouvez même faire porter stemming pour supprimer les redondances avec des mots et des terminaisons de mots tels que "-ion". Cette liste de mots est le vecteur de caractéristiques de chaque document et sera utilisée pour mesurer la similarité. Vous devrez peut-être effectuer un pré-traitement pour supprimer le balisage HTML. Deuxièmement, vous devez définir une métrique de similarité: des histoires similaires obtiennent un score élevé en termes de similarité. En suivant l'approche du sac de mots, deux histoires sont similaires si elles contiennent des mots similaires (je suis vague ici, car il y a des tonnes de choses que vous pouvez essayer, et vous devrez voir ce qui fonctionne le mieux). Enfin, vous pouvez utiliser un algorithme de clustering classique, tel que k-means clustering, qui regroupe les histoires en fonction de la métrique de similarité. En résumé: convertir un article de nouvelles en un vecteur de caractéristiques -> définir une métrique de similarité basée sur ce vecteur de caractéristiques -> grappe non supervisée.
Découvrez Google scholar, il y a probablement eu quelques articles sur ce sujet spécifique dans la littérature récente. Beaucoup de ces choses dont je viens de parler sont mises en œuvre dans des modules de traitement du langage naturel et d'apprentissage automatique pour la plupart des langues principales.
Bonne réponse! Ceci est exactement ce que je cherchais. Question de suivi rapide. Si je cherchais un développeur avec ces compétences, quel genre de choses devrais-je demander? Je ne sais même pas à quoi s'appelle ce domaine d'études. – Randy
Cherchez un étudiant en informatique qui a suivi un cours ou qui a déjà eu de l'expérience en «traitement du langage naturel» ou en «apprentissage automatique». Votre question était très simple à répondre dans un contexte d'apprentissage automatique, alors demandez-leur comment ils mettraient en œuvre quelque chose qui regroupe les nouvelles. De plus, des projets comme celui-ci ne fonctionnent pas toujours, car il y a des tonnes de choses qui peuvent se passer dans le ML et le NLP - mais quand ça marche, c'est plutôt génial. –