2017-06-05 5 views
-1

Existe-t-il des algorithmes NLP traitant de la détection des motifs répétitifs dans une liste de textes à partir de laquelle un mot-clé de sujet peut être dérivé?Détection de contour à partir de modèles dans une liste d'articles textuels

je vais le montrer comme un exemple: Vous avez une requête de recherche « nourriture végétalienne pour quelque chose santé » (où quelque chose est une partie du corps que vous avez besoin d'un conseil au sujet).

Le moteur de recherche renverra une liste d'articles.

L'algorithme recherchera des modèles dans ces articles. E.g. il remarque que 80% d'entre eux ont un paragraphe avec au moins 4 instances multiples d'un mot orange, de même que carottes, pommes, concombres.

Il vous donnera un aperçu (mindmap textuelle)

  • orange,
  • carotte -> vitamine A
  • pomme
  • banane -> run vitamine B
  • beaucoup

Onc J'ai regardé une vidéo sur le web sémantique sur YouTube et je sais que Tim Berners-Lee a parlé de quelque chose de similaire, mais j'ai perdu le lien. Pourriez-vous me mot-clé à nouveau dans cette direction?

+0

ngrammes, skipgrammes. GIYF – wildplasser

+0

regroupement de textes, modélisation de sujets? –

Répondre

1

Probablement vous recherchez word2vec - les modèles décrits peuvent être décrits en termes de distance entre les mots.