2012-04-02 4 views
3

J'essaye de récupérer la liste de sujets d'un grand corpus d'articles de nouvelles, je prévois d'employer gensim pour extraire une distribution de sujet pour chaque document en utilisant LDA. Je veux connaître le format des articles traités requis par l'implémentation de lms de gensim et comment convertir les articles bruts à ce format. J'ai vu ce lien sur l'utilisation de lda sur wikipedia dump mais j'ai trouvé le corpus dans un état traité dont le format n'a été mentionné nulle partComment utiliser gensim pour lda sur les articles de presse?

Répondre

3

Il existe une étape d'apprentissage hors ligne et une étape de création de fonctionnalité en ligne.

Hors ligne Apprentissage

Supposons que vous avez un grand corpus tel que Wikipedia ou téléchargé un tas d'articles de presse.

Pour chaque article/document:

  1. Vous obtenez le texte brut
  2. Vous lemmatiser il. Gensim a utils.lemmatize
  3. Vous créez un dictionnaire
  4. Vous créez un sac de représentation de mot

Ensuite, vous former le modèle TF-IDF et convertir l'ensemble du corpus à l'espace TF-IDF. Enfin, vous formez le modèle LDA sur le "corpus TF-IDF".

en ligne

Avec un article de nouvelles entrant vous faites presque le même:

  1. lemmatiser il
  2. Créer un sac de mot representaiton en utilisant le dictionnaire.
  3. Convertissez-le en espace TF-IDF à l'aide du modèle TF-IDF
  4. Convertissez-le en espace LDA.
+0

Pouvez-vous dire, comment convertir de l'espace lda à la normale, je ne comprends pas. – briskly

+0

Voulez-vous dire que vous avez la distribution de sujets sur un document et que vous voulez avoir le document dans l'espace TF-IDF? – Karsten

4

Je ne sais pas si j'ai bien compris le problème, mais Gensim supporte plusieurs corpus. Vous pouvez trouver une liste d'entre eux here.

Si vous voulez traiter le langage naturel, vous devez d'abord marquer le texte. Vous pouvez suivre le tutoriel étape par étape sur le site Web gensim here. C'est expliqué plutôt bien.

Questions connexes