J'ai utilisé le Ruby Classifier library pour classify privacy policies. J'en suis venu à la conclusion que l'approche simple du sac-de-mots intégrée dans cette bibliothèque n'est pas suffisante. Pour augmenter ma précision de classification, je veux former le classificateur sur n-grammes en plus des mots individuels. Je me demandais s'il existait une bibliothèque pour le prétraitement des documents afin d'obtenir des n-grammes pertinents (et traiter correctement la ponctuation). Une pensée était que je pouvais prétraiter les documents et aliments pseudo-ngrams dans le Ruby classificateur comme:Formation Naive Bayes Classifier sur ngrams
wordone_wordtwo_wordthree
Ou peut-être il y a une meilleure façon de faire cela, comme une bibliothèque qui a Négame basé Naive Bayes Classification construit dans le getgo. Je suis ouvert à l'utilisation de langues autres que Ruby ici si elles font le travail (Python semble être un bon candidat si besoin est).
bonne réponse +1 – Yavar
NLTK semble incroyable à bien des égards par rapport à ce que Ruby a à offrir. Python gagne, merci! – babonk
@babonk mon plaisir. J'ai trouvé que nltk est un plaisir à utiliser et incroyablement puissant, j'espère que vous vous amuserez avec: D –