Comment utiliser gensim pour lda sur les articles de presse?

J'essaye de récupérer la liste de sujets d'un grand corpus d'articles de nouvelles, je prévois d'employer gensim pour extraire une distribution de sujet pour chaque document en utilisant LDA. Je veux connaître le format des articles traités requis par l'implémentation de lms de gensim et comment convertir les articles bruts à ce format. J'ai vu ce lien sur l'utilisation de lda sur wikipedia dump mais j'ai trouvé le corpus dans un état traité dont le format n'a été mentionné nulle partComment utiliser gensim pour lda sur les articles de presse?

Source

2012-04-02 Rohit

Il existe une étape d'apprentissage hors ligne et une étape de création de fonctionnalité en ligne.

Hors ligne Apprentissage

Supposons que vous avez un grand corpus tel que Wikipedia ou téléchargé un tas d'articles de presse.

Pour chaque article/document:

Vous obtenez le texte brut
Vous lemmatiser il. Gensim a utils.lemmatize
Vous créez un dictionnaire
Vous créez un sac de représentation de mot

Ensuite, vous former le modèle TF-IDF et convertir l'ensemble du corpus à l'espace TF-IDF. Enfin, vous formez le modèle LDA sur le "corpus TF-IDF".

en ligne

Avec un article de nouvelles entrant vous faites presque le même:

lemmatiser il
Créer un sac de mot representaiton en utilisant le dictionnaire.
Convertissez-le en espace TF-IDF à l'aide du modèle TF-IDF
Convertissez-le en espace LDA.

Source

2012-11-21 20:22:42 Karsten

Pouvez-vous dire, comment convertir de l'espace lda à la normale, je ne comprends pas. – briskly

Voulez-vous dire que vous avez la distribution de sujets sur un document et que vous voulez avoir le document dans l'espace TF-IDF? – Karsten

Je ne sais pas si j'ai bien compris le problème, mais Gensim supporte plusieurs corpus. Vous pouvez trouver une liste d'entre eux here.

Si vous voulez traiter le langage naturel, vous devez d'abord marquer le texte. Vous pouvez suivre le tutoriel étape par étape sur le site Web gensim here. C'est expliqué plutôt bien.

Source

2012-04-06 17:33:07

Comment utiliser gensim pour lda sur les articles de presse?

Répondre

Questions connexes