J'ai juste besoin d'analyser le wikitext dans des tableaux de hachage Perl. J'ai trouvé plusieurs modules. Le Text::MediawikiFormat semble être ce dont j'ai besoin, mais il renvoie du HTML, et je veux une structure de données Perl. J'ai aussi regardé:Quel module dois-je utiliser pour analyser le texte mediawiki dans une structure de données Perl?
Répondre
j'ai écrit un code pour faire quelques années, mais il ne me suis jamais libéré parce que l'analyse sémantique de mediawiki wikitext est fondamentalement impossible. Le problème est que mediawiki vous permet de mélanger librement des constructions wikitext avec des constructions HTML, et l'analyseur officiel de mediawiki fonctionne en transformant progressivement le wikitext en HTML (en utilisant principalement un ensemble horrifiquement complexe de substitutions d'expressions régulières). Fondamentalement, je suis d'avis que mediawiki wikitext ne convient pas à d'autres fins que la traduction en HTML, et si vous voulez en extraire quelque chose, il vaut mieux utiliser un morceau de code qui le traduit en HTML, puis en analysant ce code HTML.
Post-scriptum:Parse::MediaWikiDump
est un excellent module par un bon ami à moi, mais il n'analyse pas du tout wikitext; il lit wikimedia fichiers de vidage et extrait des choses comme le texte de la page et les titres, les informations de révision, et les catégories et les bases de données de liens. Il peut vous donner le wikitext pour une page, mais il ne transforme pas ce wikitext en autre chose.
- 1. Quel module Perl utiliser?
- 2. Comment utiliser Perl pour analyser Twitter XML?
- 3. Existe-t-il un module Perl pour analyser le texte en colonne?
- 4. Où puis-je trouver un module Perl pour convertir une structure de données Perl en une structure JavaScript?
- 5. comment analyser une structure de données arborescente?
- 6. Quel type de structure de données OO dois-je utiliser pour ces données de chaîne?
- 7. Quel module CPAN utiliser pour le verrouillage de fichier non bloquant avec Perl
- 8. Confused quel module joomla utiliser
- 9. Comment utiliser Perl pour analyser le texte formaté spécifié avec regex?
- 10. Comment développer puis analyser une structure de données
- 11. Quel module de recherche API Google pour Perl devrais-je utiliser?
- 12. Quel module Perl peut gérer une variété de formats de date contenant des caractères Unicode?
- 13. Quel outil puis-je utiliser pour analyser ViewState dans Asp.Net?
- 14. Quel encodage de texte utiliser?
- 15. Comment analyser une structure de données sérialisée PHP en Java?
- 16. quel module recommandez-vous pour xmlrpc en Perl dans le script cgi?
- 17. Comment analyser une structure hiérarchique dans Rebol?
- 18. Quel parseur XML utiliser pour ces données?
- 19. .Net utilisant Chr() pour analyser le texte
- 20. conflit de définition de structure entre le module XS et la construction perl
- 21. Quelle structure de données utiliser?
- 22. Quel module CPAN peut résumer les journaux d'erreurs Perl?
- 23. Comment faire du texte rouge dans mediawiki?
- 24. Utiliser les données avec une structure variable
- 25. Quel module perl serait préférable de dessiner un graphique en perl, pour les données indiquées ci-dessous
- 26. Quel type de structure de données dois-je utiliser pour contenir des lignes de table?
- 27. Quel est le meilleur module Perl pour la configuration hiérarchique et héritable?
- 28. Transférer une catégorie dans MediaWiki
- 29. comment analyser le texte saisi dans l'entrée de texte
- 30. PHP: analyser le texte pour le flux RSS?
+1 Ce format est horrible. –
Wow, le code PHP populaire qui n'est pas bien conçu? Je suis choqué! – jrockway