J'essaie de construire un corpus PNL pour un langage sous-ressource, car il n'y a pas de données disponibles dans le cadre de la recherche PNL. Quelqu'un peut-il suggérer, comment construire ou procéder à en faire un corpus standard NLP, une méthode standard ou un document ou un lien. Merci d'avanceComment commencer à construire un corpus pour la recherche PNL
1
A
Répondre
2
Je suggère de contacter quelqu'un comme Fei Xia à l'Université de Washington qui a travaillé sur le Penn Treebank et est un peu expert de chapeau, ou de certaines personnes à Penn.
Construire un arbre complet sur l'arbre pour l'analyse et le marquage n'est pas une tâche triviale. Qu'est-ce que vous essayez de faire exactement? Quel est le but? -parsing/tagging? -semantics? -l'extraction de l'information? -phonétique? Honnêtement, selon les commentaires, cela ressemble à un projet pour toute une équipe de linguistes.
Questions connexes
- 1. Bibliothèques PNL pour un étiquetage POS simple
- 2. Commencer la programmation Android - Construire un Quiz court
- 3. Corpus de document russe pour moteur de recherche
- 4. OpenTok suggestion comment commencer à construire une application
- 5. comment commencer à construire cooliris en openGL et C++?
- 6. Comment commencer à construire un outil de grattage Web basé sur Java
- 7. c/C++ bibliothèque PNL
- 8. Bibliothèque PNL en java
- 9. PNL: manipulations morphologiques
- 10. Où devrais-je commencer à lire pour apprendre à construire un bon bijou Rails?
- 11. comment commencer à construire une application pour la vidéo en direct en streaming sur Android
- 12. aider à construire la meilleure recherche
- 13. Construire un index pour la recherche de sous-chaîne?
- 14. Construire une seule page compatible pour Mobile - par où commencer?
- 15. Construire un moteur de recherche en Java
- 16. Comment commencer à écrire un WM compositing?
- 17. Construire un générateur de code dans ruby .. Par où commencer?
- 18. De quoi a besoin la PNL?
- 19. "Cloner" un corpus en NLTK?
- 20. Corpus d'interactions utilisateur pour AI?
- 21. construire une recherche pour une table particulière
- 22. Emacs Dire à l'IDO par où commencer la recherche
- 23. SQL PnL Requête d'inventaire
- 24. PNL pour Java, quelle boîte à outils devrais-je utiliser?
- 25. Besoin de créer un histogramme en Python pour un corpus
- 26. Réorganiser un tableau pour commencer à zéro
- 27. Bibliothèque PNL pour Java langage de programmation
- 28. comment construire un fichier arff pour weka?
- 29. Comment construire un shell GUI pour DOS?
- 30. Outils PNL pour les langues de droite à gauche?
Qu'avez-vous trouvé ou essayé jusqu'à présent? Il existe de nombreux domaines différents de la linguistique des corpus et de nombreuses méthodes différentes pour collecter les données. Pour une langue plus "numérique" plus rare, c'est plus exigeant en termes de travail sur le terrain et pas typiquement pour les programmeurs. – Iterator
la langue que j'essaie de travailler a très peu de ressources numériques. J'essaie d'en construire un pour la recherche en PNL. Sans doute, ce sera une tâche laborieuse, mais j'ai aussi besoin d'informations techniques, ou existe-t-il un format standard par lequel les corpus ont été construits pour des langues comme l'anglais. –
Vous devriez vraiment consulter un département de linguistique, en particulier un expert en collecte de corpus pour des langues moins étudiées. Ceci est souvent entrepris par des étudiants à la maîtrise ou au doctorat dans le cadre d'un long processus. Ce n'est pas si facile de s'asseoir et de faire à nouveau. Cela n'a pas pour but de vous dissuader autant que de penser que la collecte de telles données est très coûteuse, disons mille phrases (ou un million de mots, si vous préférez). Avoir un bon plan qui a été exécuté auparavant permet de réduire les coûts et améliore le SNR dans les données. – Iterator