2010-09-20 4 views
0

J'ai maintenant task.I apparemment facile, mais difficile doivent développer un ensemble de données de questions, et je classifient des questions en deux catégories:Classer les catégories sur Yahoo! Réponse

  1. questions Factoid: « qui est le président actuel de la France. "
  2. Questions libres: "Pouvez-vous donner votre avis sur les caméras ci-dessous?"

maintenant j'ai besoin de connaître le pourcentage des deux catégories sur Yahoo! répondre de sorte que je pourrais maintenir mon ensemble de données en conséquence, mais je ne sais pas un bon moyen de faire cette statistique.Doing manuellement semble vraiment impossible, est-ce que quelqu'un a une idée? Je serais vraiment reconnaissant, merci.

Répondre

1

Vous voulez dire reconnaître l'un de l'autre? Automatiquement, sans aucune catégorisation de la fin du site? Cela va probablement être impossible.

Je pense que le mieux que vous pouvez faire est de comparer certaines mesures. Les questions «gratuites» auront probablement plus de contributions avec plus de texte; ils seraient plus fortement discutés si Y! Answers avait un système de discussion ... "Factoid" des questions peut commencer avec "Qu'est-ce que ..." plus souvent ... et ainsi de suite.

Peut-être chercher 100 questions aléatoires, faire une vérification manuelle et notez les pourcentages.

+0

Super, je pensais en fait plus de questions de texte seraient classées comme Question Libre – Kevin

+1

@Robert oui, mais il ne sera jamais entièrement fiable. La recherche manuelle sur un exemple de jeu de données est probablement votre meilleur pari –

Questions connexes