Bien que MediaWiki a une API (api.php
), il pourrait être plus facile pour vos simplement utiliser le paramètre action=raw
-index.php
si vous voulez juste pour récupérer le code source d'une révision (non enveloppée dans XML, JSON, etc. , par opposition à l'API).
Par exemple, c'est le mot brut de la page jour 14 Novembre:
http://en.wiktionary.org/w/index.php?title=Wiktionary:Word_of_the_day/November_14&action=raw
Ce qui est regrettable est que le format des pages wiki se concentre sur la présentation (pour le lecteur humain) plutôt que sur sémantique (pour la machine), vous ne devriez donc pas être surpris qu'il n'y ait pas de commande API "get word definition". Au lieu de cela, votre script devra comprendre les nombreux modèles de mise en forme de texte que les éditeurs Wiktionary ont créés et utilisés, ainsi que la syntaxe de mise en forme de présentation complexe, y compris les en-têtes, les listes non ordonnées et autres. Par exemple, voici le code source de la page « débordement »:
http://en.wiktionary.org/w/index.php?title=overflow&action=raw
Il est une option « générer XML Parse arbre » dans l'API, mais il ne se casse pas beaucoup de la présentation formatage en XML. Il suffit de voir par vous-même:
http://en.wiktionary.org/w/api.php?action=query&titles=overflow&prop=revisions&rvprop=content&rvgeneratexml=&format=jsonfm
Si vous vous demandez s'il existe un analyseur syntaxique pour les pages MediaWiki format autre que MediaWiki, non, il n'y a pas. Au moins rien écrit en JavaScript qui est actuellement maintenu (voir list of alternative parsers, et vérifiez les sites Web des deux énumérés). Et même alors, soutenir la plupart/tous les modèles communs sera un grand défi. Bonne chance.
Je crois que le contenu de la boîte «Mot du jour» sur la page d'accueil est éditer manuellement pour être bref. En ouvrant l'article de mot, vous verrez plus de significations pour ce mot. –
voir aussi http://stackoverflow.com/questions/3364279/has-anyone-parsed-wiktionary – pfctdayelise