J'ai près de 150k articles en turc. J'utiliserai des articles pour la recherche sur le traitement du langage naturel. Je veux stocker les mots et la fréquence d'entre eux par article après le traitement des articles.Listes de mots pour beaucoup d'articles - matrice de document-terme
Je les stocke maintenant dans RDBS.
J'ai 3 tables:
articles -> article_ID, texte
Mots -> word_id, type, mot
mots-article -> id, word_id, article_ID, fréquence (index word_id, index pour article_id)
J'interrogera
- tous les mots dans un article
- une fréquence de mot par articl e
- occurrences de mots dans tous les articles et dans lesquels des articles
J'ai des millions de lignes dans le tableau des mots-article. J'ai toujours travaillé avec RDBS dans ce projet. commencé avec mysql et en utilisant oracle maintenant. Mais je ne veux pas utiliser Oracle et je veux de meilleures performances que mysql.
De plus, je dois gérer ce travail dans une machine avec 4 Go de RAM.
Simplement, comment stocker la matrice de document-terme et faire une requête sur elle? la performance est nécessaire. Est-ce que les «bases de données à valeur-clé» peuvent battre MySQL à la performance? ou qu'est-ce qui peut battre mysql?
Si votre langage de programmation de réponse dépendait, j'écris du code en python. Mais C/C++, Java est ok.