J'essaie de concevoir une méthode qui permettra de classer un nombre donné de mots anglais en 2 ensembles - "rare" et "commun" - la référence étant de savoir combien ils sont utilisé dans la langue. Le nombre de mots que je voudrais classer est limité - actuellement autour de 10 000, et inclut tout des articles, aux noms propres qui pourraient être empruntés d'autres langues (et seraient ainsi classés comme «rares»). J'ai fait une analyse de fréquence à l'intérieur du corpus, et j'ai une distribution de ces mots (allant d'une utilisation à environ 100). Mon intuition pour un tel système était d'utiliser des listes de mots (tels que le corpus de fréquence de mots BNC, wordnet, fréquence de corpus interne), et assigner des poids à son apparition dans l'un d'entre eux. Par exemple, un mot qui a une fréquence moyenne dans le corpus (disons 50), mais qui apparaît dans une liste de mots W - peut être considéré comme commun car c'est l'un des plus fréquents dans la langue entière. Ma question était - quelle est la meilleure façon de créer un score pondéré pour quelque chose comme ça? Devrais-je aller discret ou continu? Dans les deux cas, quel genre de système de classification fonctionnerait le mieux pour cela?Classer les mots anglais en rares et communs
Ou recommandez-vous une autre méthode?
Merci!
EDIT:
Pour répondre à la question de Vinko sur l'utilisation prévue de la classification -
Ces mots sont tokenizés d'une phrase (par exemple: le titre du livre) - et l'intention est de comprendre une stratégie pour générer une chaîne de requête de recherche pour la phrase, en cherchant un corpus de texte. La chaîne de requête peut prendre en charge plusieurs paramètres tels que la proximité, etc. - donc si un mot est commun, ces paramètres peuvent être modifiés.
Pour répondre à la question de Igor -
(1) Quelle est la taille de votre corps? Actuellement, la liste est limitée à 10k jetons, mais ce n'est qu'un ensemble d'entraînement. Il pourrait aller jusqu'à 100k une fois que je commence à le tester sur l'ensemble de test.
2) avez-vous une sorte de proportion attendue de mots communs/rares dans le corpus? Hmm, je ne sais pas.
Je pense que l'utilisation prévue de la classification aidera à définir quels sont les meilleurs critères pour peser les scores. –
Deux questions: (1) quelle est la taille de votre corpus? Est-ce juste 10 000 mots que vous aimeriez classer, ou est-il plus grand/indépendant des 10 000 mots? (2) avez-vous une sorte de proportion attendue de mots communs/rares dans le corpus? –
Répondez à vos questions ci-dessus! Vous ne savez pas si SO informe les utilisateurs des modifications effectuées. – viksit