2016-04-28 1 views
-2

Je travaille avec un certain nombre de relevés de notes pour les appels de revenus d'entreprise, like this. Je veux compter le nombre de mots prononcés par des individus dans une entreprise qui ont un certain titre par rapport au nombre de mots parlés. Comme vous pouvez le voir, cette information est transmise par le texte de l'en-tête en gras.Besoin d'aide en utilisant l'analyse textuelle pour compter les mots parlés par un individu donné

Bien que mon expérience de codage soit limitée pour être honnête, j'apprends Python à le faire. Est-ce que quelqu'un ici a des recommandations sur la façon de s'y prendre?

+0

Veuillez fournir votre code et une brève description du problème que vous avez. –

Répondre

2

Les étapes de base de l'approche quelque chose comme cela serait le suivant:

  1. Vous aurez envie de commencer d'abord en grattant le contenu du site en question. Vous pouvez utiliser la bibliothèque python requests pour ce faire. Dans cette étape, vous allez télécharger le contenu du site HTML brut dans votre programme.
  2. Ensuite, vous aurez besoin d'analyser le code HTML pour le comprendre. Recherchez la bibliothèque beautifulsoup pour python. Cela va structurer le code HTML dans votre programme et vous permettre de rechercher certaines balises HTML qui définissent la structure de la page.
  3. Après avoir saisi ce dont vous avez besoin à partir du HTML, vous pouvez split le texte en plusieurs mots, compter le nombre total de mots, puis même compter le nombre d'occurrences de chaque mot en utilisant un python dictionary.

Pour plus d'analyse de texte, consultez également la bibliothèque nltk pour python.

+0

Ceci est vraiment utile, merci! – user6264271