2011-08-19 3 views
1

J'essaie de construire un corpus PNL pour un langage sous-ressource, car il n'y a pas de données disponibles dans le cadre de la recherche PNL. Quelqu'un peut-il suggérer, comment construire ou procéder à en faire un corpus standard NLP, une méthode standard ou un document ou un lien. Merci d'avanceComment commencer à construire un corpus pour la recherche PNL

+0

Qu'avez-vous trouvé ou essayé jusqu'à présent? Il existe de nombreux domaines différents de la linguistique des corpus et de nombreuses méthodes différentes pour collecter les données. Pour une langue plus "numérique" plus rare, c'est plus exigeant en termes de travail sur le terrain et pas typiquement pour les programmeurs. – Iterator

+0

la langue que j'essaie de travailler a très peu de ressources numériques. J'essaie d'en construire un pour la recherche en PNL. Sans doute, ce sera une tâche laborieuse, mais j'ai aussi besoin d'informations techniques, ou existe-t-il un format standard par lequel les corpus ont été construits pour des langues comme l'anglais. –

+0

Vous devriez vraiment consulter un département de linguistique, en particulier un expert en collecte de corpus pour des langues moins étudiées. Ceci est souvent entrepris par des étudiants à la maîtrise ou au doctorat dans le cadre d'un long processus. Ce n'est pas si facile de s'asseoir et de faire à nouveau. Cela n'a pas pour but de vous dissuader autant que de penser que la collecte de telles données est très coûteuse, disons mille phrases (ou un million de mots, si vous préférez). Avoir un bon plan qui a été exécuté auparavant permet de réduire les coûts et améliore le SNR dans les données. – Iterator

Répondre

2

Je suggère de contacter quelqu'un comme Fei Xia à l'Université de Washington qui a travaillé sur le Penn Treebank et est un peu expert de chapeau, ou de certaines personnes à Penn.

Construire un arbre complet sur l'arbre pour l'analyse et le marquage n'est pas une tâche triviale. Qu'est-ce que vous essayez de faire exactement? Quel est le but? -parsing/tagging? -semantics? -l'extraction de l'information? -phonétique? Honnêtement, selon les commentaires, cela ressemble à un projet pour toute une équipe de linguistes.

Questions connexes