2010-05-20 6 views
1

J'ai besoin de calculer la fréquence terme de terme dans un document ... ce que j'ai fait est simplement "compté le nombre de fois ce terme apparaît dans ce document" ... si ce terme est apparu dire 138 fois J'ai pris la valeur de tf comme 138 .... mi faisant droit ..? comme je l'ai lu quelque part que termfrequency (tf) = nombre de mots/no de mots dans le document ... si c'est vrai den comment puis-je calculer le no des mots dans un document .. est der certains regex ?? ?calcul de fréquence à terme

Pls reply..thank u

+0

Basé sur un post précédent sur ce sujet par la même affiche, le tagging comme devoirs. –

Répondre

0

Dans la plupart des implémentations d'expression régulière, il y a la notion d'une limite de mot, \b. Donc, une regex qui correspondrait à un mot pourrait ressembler à ceci: \b(\w+)\b. Fondamentalement, ce que l'expression régulière dit est: Correspond à une limite de mot, puis au moins un caractère de mot (\w+), puis à nouveau une limite de mot. Les parenthèses jointes ajoutent simplement le mot correspondant à un groupe afin que vous puissiez l'extraire plus tard. Ceci n'est probablement pas nécessaire dans votre cas, vous pouvez donc les supprimer si vous le souhaitez.

J'espère que cela vous aide un peu.

+0

merci les gars .... vraiment apprécié .. je m en utilisant C# – jaskirat

0

vous ne mentionnez pas quelle langue/programme utilisez-vous. La plupart des éditeurs de texte vous dira combien de mots sont dans le document. Dans unix, vous pouvez utiliser la commande 'wc -w filename'.

Questions connexes