Comment puis-je trouver seulement des mots "intéressants" d'un corpus?

Je suis en train d'analyser des phrases. Je veux connaître le contenu pertinent de chaque phrase, défini vaguement comme des «mots semi-uniques» par rapport au reste du corpus. Quelque chose de similaire aux "phrases statistiquement improbables" d'Amazon, qui semblent (souvent) transmettre le caractère d'un livre à travers des chaînes de mots bizarres. Mon premier passage était de commencer à faire une liste de mots communs. Cela supprime les faciles comme a, the, from, etc. Évidemment, il s'avère que cette liste devient assez longue.Comment puis-je trouver seulement des mots "intéressants" d'un corpus?

Une idée est de générer cette liste: Faire un histogramme du corpus' fréquences de mots, et élaguer les 10% ou quelque chose de similaire (IE the se produit 700 fois, from 600 fois, mais micropayments seulement 50, ce qui est sous la coupure et donc pertinent).

Un autre algorithme que je viens d'apprendre de Hacker News aujourd'hui est le Tf idf, ce qui pourrait être utile.

Quelles autres approches fonctionneraient mieux que mes deux idées?

Source

2010-08-13 Alex Mcp

Jetez un oeil à this article (statistiques Niveau de mots: Trouver des mots-clés dans les textes littéraires et des séquences symboliques, publiées dans Phys Rev. E.).

L'image sur la première page avec sa légende explique l'observation cruciale. Dans Don Quixote, les mots "mais" et "Quichotte" apparaissent avec des fréquences similaires, mais leurs spectres sont assez différents (les occurrences de "Quichotte" sont groupées alors que les occurrences de "mais" sont plus régulièrement espacées). Par conséquent, "Quichotte" peut être classé comme un mot intéressant (mot-clé) tandis que "mais" est ignoré.

Ce pourrait être ou ne pas être ce que vous cherchez, mais je suppose que cela ne vous fera pas de mal de vous familiariser avec ce résultat.

Source

2010-08-13 20:58:44 Bolo

+1, c'est très intéressant, merci! –

Fonctionne assez bien sur le livre de Darwin, mais sur Ulysse de Joyce, il produit des résultats un peu moins utiles: je, dit, dit, vous, elle, elle, bloom, mr, project, moi ... sont les dix premiers mots. Si vous étendez à la prochaine quarantaine, vous obtenez: mulligan, est, joe, buck, il, était, ce, qui, citoyen, eglinton, douce, mon, comme, j, cissy, o, nous, tap, omolloy, deasy , cela, avait, aussi, conmee, gutenberg, haines, myles, martin, kennedy, dehors, son, votre, ils, ned, gerty, hes, lenehan, edy ... Incidemment, je me rends compte que je didn ' t dépouiller la logorrhée de Project Gutenberg assez bien !! –

analyse sémantique latente (LSA) http://www.puffinwarellc.com/index.php/news-and-articles/articles/33.html

Source

2010-08-13 20:36:50

Je pense que ce que Amazon appelle "Statiscal Improbable Phrases" sont des mots qui sont improbables par rapport à leur énorme corpus de données. En effet, même si un mot est répété 1000 fois dans un livre donné A, si ce livre est le seul endroit où il apparaît, alors c'est un SIP, car la probabilité qu'il apparaisse dans un livre donné est zilch (parce qu'il est spécifique au livre A). Vous ne pouvez pas vraiment dupliquer cette richesse de données pour comparer les informations, sauf si vous travaillez avec beaucoup de données.

Qu'est-ce qu'un nombre important de données? Eh bien, si vous analysez des textes littéraires, alors vous voudriez télécharger et traiter quelques milliers de livres de Gutenberg. Mais si vous analysez des textes légaux, alors vous devrez spécifiquement fournir le contenu des livres juridiques.

Si, comme c'est probablement le cas, vous n'avez pas beaucoup de données en tant que luxe, alors vous devez compter, d'une manière ou d'une autre, sur l'analyse fréquentielle. Mais au lieu de considérer les fréquences relatives (fractions du texte, comme on le considère souvent), considérons les fréquences absolues.

Par exemple, hapax également connu dans le domaine de l'analyse de réseau 1-souris, pourrait être particulièrement intéressant. Ce sont des mots qui n'apparaissent qu'une seule fois dans un texte donné.Par exemple, dans Ulysse de James Joyce, ces mots n'apparaissent qu'une seule fois: postexilique, corrosif, romanys, macrocosme, diaconal, compressibilité, aungier. Ce ne sont pas des phrases improbables statistiques (comme le serait "Leopold Bloom"), donc elles ne caractérisent pas le livre. Mais ce sont des termes assez rares pour qu'ils n'apparaissent qu'une seule fois dans l'expression de cet écrivain, donc vous pouvez considérer qu'ils caractérisent, en quelque sorte, son expression. Ce sont des mots que, contrairement aux mots communs comme «le», «couleur», «mauvais», etc., il a expressément cherché à utiliser. Donc, il s'agit d'un artefact intéressant, et ils sont assez faciles à extraire (pensez O (N) avec une mémoire constante), contrairement à d'autres indicateurs plus complexes. (Et si vous voulez des éléments qui sont légèrement plus fréquents, alors vous pouvez vous tourner vers des souris 2 ..., 10, qui sont également faciles à extraire.)

Source

2010-08-13 21:44:42

TF-IDF est une solution. Si vous voulez parler de phrases plutôt que des mots, en plus des excellentes références ci-dessus, voici un schéma simple:

Créer une markov chain à partir d'un corpus grand échantillon. En un mot, vous construisez une chaîne markov en enregistrant la fréquence de chaque n-uplet dans votre texte d'entrée. Par exemple, la phrase "ceci est un test" avec 3-tuples serait (ceci, est, a), (est, un, test). Ensuite, vous groupez chaque n-uplet par les n-1 premiers termes, ce qui vous permet de répondre à la question "étant donné les mots n-1 précédents, quelle est la probabilité que le mot suivant soit ceci?"

Maintenant, pour chaque phrase du document d'entrée, traversez la chaîne de Markov. Calculez la probabilité de voir la phrase en multipliant toutes les probabilités que vous rencontrez en traversant la chaîne ensemble. Cela vous donne une estimation de la «probabilité» de cette phrase dans le corpus d'entrée. Vous pouvez multiplier cette probabilité par la longueur de la phrase, car les phrases plus longues sont moins probables, statistiquement.

Maintenant, vous avez associé à chaque phrase de votre entrée une probabilité. Choisissez les phrases les moins probables - ce sont les phrases «intéressantes», pour une définition d'intéressant.

Source

2010-08-16 11:12:05

+1 cela semble intéressant. Pouvez-vous s'il vous plaît me référer le papier? – KillBill

Comment puis-je trouver seulement des mots "intéressants" d'un corpus?

Répondre

Questions connexes