Modifié: J'ai quelques termes/sujets et je veux quantifier la différence entre ces termes/sujets dans le sens ou le domaine les uns des autres. Voici le cas d'utilisation dans lequel je veux l'appliquer:Comment puis-je quantifier la différence de sens de deux termes? Par exemple "oiseau" et "Chaise"
En ce moment j'ai un jeu de données de twitter sur un match de cricket particulier (tweets avec hashtag de ce match). Je veux voir combien d'autres sujets, sans rapport avec le cricket, font leur chemin dans de tels tweets. Par exemple si quelqu'un commence à prendre des "Refuges syriens" dans un tel tweet qui ne sera pas très lié au sujet du jeu Cricket. Mon approche de base est d'extraire des sujets de ces tweets, puis d'identifier les sujets qui sont étroitement liés au domaine du cricket et ceux qui ne le sont pas. Statistiquement, vous pouvez regarder word2vec, fasttext et des modèles similaires.
Cette question semble plus profonde que la portée de la PNL dans Stackoverflow :). Peut-être que vous pouvez nous donner votre cas d'utilisation pour une telle quantification. – Mehdi
Salut @Mehdi, en ce moment j'ai des données de twitter. Les tweets sont sur le match de cricket. Je veux identifier combien d'autres sujets font de cette manière dans de tels tweets. Donc, fondamentalement, je vais extraire les sujets de tweets, puis voir comment ces sujets sont indépendants du domaine de "Cricket". – user3046442