Je fais partie d'un groupe qui travaille sur un projet de cours de données volumineuses et nous avons rencontré ce que nous considérons comme un problème pour la PNL. À l'heure actuelle, nous avons des groupes de données formatées en JSON en tant que tel:Traitement du langage naturel des sujets
"wine": {
"category": "socializing",
"category_id": 31,
"score": 0.0,
"topic_id": 611
}
"dragons": {
"category": "lifestyle",
"category_id": 17,
"score": 0.279108277990115,
"topic_id": 2137
},
"furry-fandom": {
"category": "lifestyle",
"category_id": 17,
"score": 0.279108277990115,
"topic_id": 48595
},
"legendarycreatures": {
"category": "lifestyle",
"category_id": 17,
"score": 0.279108277990115,
"topic_id": 10523
}
Les balises sont sujets associés aux informations pertinentes (catégorie, cote de popularité, et une catégorie/sujet ID #). Nous avons déjà associé des catégories pour chaque sujet depuis que l'API que nous tirons le gère. Notre problème est cependant que les catégories sont trop larges, avec seulement 33, pour identifier les tendances significatives et les sujets sont trop spécifiques w/chevauchement (par exemple dragons/légendairescreatures) et il y en a trop avec environ 22 000.
C'est là qu'intervient le PNL; nous voulons créer une sorte de super-sujet qui ne soit pas aussi large que «catégorie» mais pas aussi spécifique que les sujets actuels. Un exemple utilisant des «dragons» et des «légendes légendaires» serait de nouveau, avec d'autres, s'intégrant dans un super-sujet de «fantaisie». Un peu plus d'arrière-plan, nous utilisons Python pour saisir/traiter nos données, nous aimerions continuer à l'utiliser pour cela, et aucun d'entre nous n'a d'expérience pratique avec la PNL.
Avec cela en tête, nous aimerions avoir des suggestions et de l'aide dans ce domaine de lutte. S'il y a de meilleurs moyens ou peut-être que ce n'est pas faisable avec la PNL, nous sommes ouverts à eux. Ce que nous essayons d'éviter est de coder en dur une sorte de tableau pour la catégorisation. TL: DR: Nous essayons de catégoriser un ensemble de 22 000 sujets en «super-sujets» appropriés qui sont plus spécifiques que les actuels mais moins larges que les catégories actuelles. Nous essayons de le faire avec la PNL tout en utilisant Python mais nous ne savons pas comment s'y prendre et nous sommes également ouverts aux suggestions.
Jetez un oeil à http://stackoverflow.com/a/22905260/610569 – alvas