J'ai des listes des mots les plus fréquemment utilisés, dérivés des données ngram publiquement disponibles de Google.Comment trier les listes de mots fréquemment utilisés pour trouver des combinaisons efficaces en utilisant les mots les plus uniques possibles?
J'ai:
6.800 2grams fréquentes 4800 3grams fréquents 2500 4grams fréquentes 1100 5grams fréquents
un exemple 2 Ngram serait quelque chose comme:
"le chien" « un livre " " trois chaises " etc.
un exemple 5 ngram woul d être quelque chose comme: « une fois là-bas » « était une fois il y avait » « il était sombre et » etc.
J'ai aussi une liste de 2000 mots fréquents.
1) Je veux savoir quelle combinaison du plus petit nombre de ngrammes de mes différentes listes contient le plus grand nombre de mots de la liste de mots fréquents. Par exemple, si je trouvais 200 grammes, 40 grammes, 50 grammes et 20 grammes qui utilisent 1800 mots fréquents, ce serait un succès. J'ai augmenté ces ratios, mais j'aimerais trouver moins de 500 combinaisons qui utilisent la majorité des mots.
2) Je voudrais également trouver le plus petit nombre de combinaisons des divers ngrammes qui contiennent la plus grande quantité totale de mots des listes. Par exemple, si je pouvais trouver 500 ngrammes qui utilisent plus de 2 000 mots différents, ce serait génial.
Le problème que je rencontre est que je n'ai aucune idée de comment je ferais cela. Je pense que hadoop et mapreduce sont dans la bonne direction ... mais toute aide serait appréciée!
@Jeremy, pouvez-vous s'il vous plaît nous faire savoir quel type de contexte vous avez dans CS? –
@AlptiginJalayr Je suis confiant en PHP, JavaScript, et MySQL ... mais je n'ai jamais osé dans un apprentissage machine de ce genre avant. C'est probablement un peu hors de ma ligue, mais j'espérais au moins essayer de comprendre la technologie qui serait impliquée dans une solution au problème. – Jeremy