2016-04-25 1 views
0

Je voudrais savoir comment extraire tous les liens Wikipedia qui ont été ajoutés et supprimés dans une fenêtre de temps pour un article spécifique dans Wikipedia.Wikipedia: Quand des liens ont-ils été ajoutés?

Je sais Jusqu'à présent, comment extraire les révisions Wikipédia dans cette question: How to get full Wikipedia revision-history list from some article? Et comment faire pour une fenêtre de temps spécifique: API to get Wikipedia revision id by date

Par exemple, voici comment j'obtenir le contenu de la révision de fenêtre temporelle pour l'article Germanwings_Flight_9525: https://en.wikipedia.org/w/api.php?action=query&format=xml&prop=revisions&rvlimit=500&titles=Germanwings_Flight_9525&rvstart=20150325180000&rvend=20150323180000&rvprop=ids|timestamp|content

Comment obtenir les liens ajoutés et supprimés?

Merci

+0

Veuillez fournir les extraits de code que vous avez définis jusqu'à présent. –

+0

Je n'ai encore travaillé sur aucun code, j'essaie de voir s'il existe une solution simple pour obtenir les liens uniquement (sans trop de code regex). –

+0

Donnez-nous un exemple pour * 'link' *, car il existe plusieurs types de liens Wikipedia – Termininja

Répondre

0

Vous pouvez récupérer toutes les révisions, les séparer par « [[ » et recherchez le prochain « | » ou "]" caractère. Avec cela, vous trouverez tous les liens, que vous pouvez collecter dans une liste ou quelque chose dans le but d'en reconnaître de nouveaux.