Je pense que ce que Amazon appelle "Statiscal Improbable Phrases" sont des mots qui sont improbables par rapport à leur énorme corpus de données. En effet, même si un mot est répété 1000 fois dans un livre donné A, si ce livre est le seul endroit où il apparaît, alors c'est un SIP, car la probabilité qu'il apparaisse dans un livre donné est zilch (parce qu'il est spécifique au livre A). Vous ne pouvez pas vraiment dupliquer cette richesse de données pour comparer les informations, sauf si vous travaillez avec beaucoup de données.
Qu'est-ce qu'un nombre important de données? Eh bien, si vous analysez des textes littéraires, alors vous voudriez télécharger et traiter quelques milliers de livres de Gutenberg. Mais si vous analysez des textes légaux, alors vous devrez spécifiquement fournir le contenu des livres juridiques.
Si, comme c'est probablement le cas, vous n'avez pas beaucoup de données en tant que luxe, alors vous devez compter, d'une manière ou d'une autre, sur l'analyse fréquentielle. Mais au lieu de considérer les fréquences relatives (fractions du texte, comme on le considère souvent), considérons les fréquences absolues.
Par exemple, hapax également connu dans le domaine de l'analyse de réseau 1-souris, pourrait être particulièrement intéressant. Ce sont des mots qui n'apparaissent qu'une seule fois dans un texte donné.Par exemple, dans Ulysse de James Joyce, ces mots n'apparaissent qu'une seule fois: postexilique, corrosif, romanys, macrocosme, diaconal, compressibilité, aungier. Ce ne sont pas des phrases improbables statistiques (comme le serait "Leopold Bloom"), donc elles ne caractérisent pas le livre. Mais ce sont des termes assez rares pour qu'ils n'apparaissent qu'une seule fois dans l'expression de cet écrivain, donc vous pouvez considérer qu'ils caractérisent, en quelque sorte, son expression. Ce sont des mots que, contrairement aux mots communs comme «le», «couleur», «mauvais», etc., il a expressément cherché à utiliser. Donc, il s'agit d'un artefact intéressant, et ils sont assez faciles à extraire (pensez O (N) avec une mémoire constante), contrairement à d'autres indicateurs plus complexes. (Et si vous voulez des éléments qui sont légèrement plus fréquents, alors vous pouvez vous tourner vers des souris 2 ..., 10, qui sont également faciles à extraire.)
+1, c'est très intéressant, merci! –
Fonctionne assez bien sur le livre de Darwin, mais sur Ulysse de Joyce, il produit des résultats un peu moins utiles: je, dit, dit, vous, elle, elle, bloom, mr, project, moi ... sont les dix premiers mots. Si vous étendez à la prochaine quarantaine, vous obtenez: mulligan, est, joe, buck, il, était, ce, qui, citoyen, eglinton, douce, mon, comme, j, cissy, o, nous, tap, omolloy, deasy , cela, avait, aussi, conmee, gutenberg, haines, myles, martin, kennedy, dehors, son, votre, ils, ned, gerty, hes, lenehan, edy ... Incidemment, je me rends compte que je didn ' t dépouiller la logorrhée de Project Gutenberg assez bien !! –