Il existe différents modèles de mesure de similitude, comme word2vec ou un gant, mais vous semblez être plus à la recherche d'un corpus comprenant des phrases sociales et informelles comme 'lol'.
Cependant, je vais parler de word2vec parce que cela mène à ce que je pense être une réponse à votre question.
Le concept fondamental de word2vec (et d'autres modèles d'inclusion de mots comme le gant) est la représentation de mots dans un espace vectoriel qui incorpore des relations entre les mots. Cela se prête très bien à la mesure de la similarité, puisque les vecteurs ont beaucoup de mathématiques établies pour en tirer parti. Vous pouvez en lire plus sur les détails techniques de word2vec dans l'original paper, mais j'aime assez this blog post car il est bien écrit et concis. Encore une fois, puisque word2vec est juste un modèle, vous devez le coupler avec le bon ensemble d'entraînement pour obtenir le type de portée que vous recherchez.Il existe des modèles pré-formés qui circulent sur le Web, tels que this bunch. L'ensemble d'apprentissage est vraiment ce qui vous permet d'interroger une plus grande variété de termes, plutôt que le modèle.
Vous pouvez certainement utiliser ces modèles pré-formés s'ils ont des expressions sociales comme celles que vous recherchez. Cependant, si vous ne voyez pas un modèle qui a été formé sur un corpus approprié, vous pouvez facilement former un modèle vous-même. Je suggère Twitter ou Wikipedia pour les corpus (ensembles de formation), et la mise en œuvre de word2vec dans gensim
comme un modèle d'intégration de mots.
Quel genre de la similitude essayez-vous de calculer? Similitude sémantique? Vous ne serez pas en mesure de le calculer sans une sorte de base de données de significations de mots (comme WordNet). – BrenBarn
Que voulez-vous dire? J'utilise déjà WordNet, la similitude est calculée en utilisant Wu-Palmer Similarity. S'il vous plaît, lisez attentivement le code. –
Jetez un oeil à la tâche STS: http://alt.qcri.org/semeval2016/task1/ Et une prise éhontée: https://github.com/alvations/stasis – alvas