2010-04-06 5 views

Répondre

3

j'ai écrit un code pour faire quelques années, mais il ne me suis jamais libéré parce que l'analyse sémantique de mediawiki wikitext est fondamentalement impossible. Le problème est que mediawiki vous permet de mélanger librement des constructions wikitext avec des constructions HTML, et l'analyseur officiel de mediawiki fonctionne en transformant progressivement le wikitext en HTML (en utilisant principalement un ensemble horrifiquement complexe de substitutions d'expressions régulières). Fondamentalement, je suis d'avis que mediawiki wikitext ne convient pas à d'autres fins que la traduction en HTML, et si vous voulez en extraire quelque chose, il vaut mieux utiliser un morceau de code qui le traduit en HTML, puis en analysant ce code HTML.

Post-scriptum:Parse::MediaWikiDump est un excellent module par un bon ami à moi, mais il n'analyse pas du tout wikitext; il lit wikimedia fichiers de vidage et extrait des choses comme le texte de la page et les titres, les informations de révision, et les catégories et les bases de données de liens. Il peut vous donner le wikitext pour une page, mais il ne transforme pas ce wikitext en autre chose.

+0

+1 Ce format est horrible. –

+7

Wow, le code PHP populaire qui n'est pas bien conçu? Je suis choqué! – jrockway

Questions connexes