2011-06-09 4 views
3

Articles dans wikipedia être édités. Ils peuvent croître/rétrécir/mettre à jour, etc. Quel système de fichiers/base de données de stockage etc est utilisé en dessous pour le soutenir. Dans le cours de base de données, j'avais lu un peu sur l'enregistrement de longueur variable, mais cela semblait être plus pour les petites chaînes et pas pour l'ensemble du document. Comme dans le système de fichiers, les fichiers peuvent grossir/rétrécir, etc., et je pense que c'est fait en enchaînant des blocs ensemble. à chaque fois, nous mettons à jour un fichier, pas tout le fichier est réécrit. Peut-être que quelque chose de similaire serait fait ici.quel modèle de stockage de données est utilisé pour stocker des articles dans wikipedia

Je cherche des noms spécifiques, des terminologies, peut-être même comment le schéma dans mysql est défini. (Je pense que Wikipédia utilise mysql).

Voici des liens vers certains writeup sur l'architecture de wikipedia, mais je ne suis pas en mesure de répondre à ma question de ces:

http://swe.web.cs.unibo.it/twiki/pub/WikiFactory/AntonelloDiMuroThesis/Wikipedia-cheapandexplosivescalingwithLAMP.pdf

http://dom.as/uc/workbook2007.pdf

Merci,

Répondre

4
+0

ok, est-ce que la table ** text **: old_id: (integer 8), old_text (mediumblob), old_flags (tinyblob) contiennent le texte de l'article? qu'est-ce que mediumblob? sth lié à mysql? – xyz

+0

ok, il suffit de lire sur internet ce qui est mediumblob. Peut-être que cela a l'indice de ma question. Cela me rend curieux, comment mysql implémente intérieurement mediumblob? comment il gère l'édition de l'article quelque part au milieu etc .. des pointeurs sur elle? – xyz

+0

Les blobs sont des chaînes binaires. Je suppose qu'ils sont utilisés à la place des champs de texte ici et là, en raison de la possibilité d'avoir plusieurs jeux de caractères dans la base de données. De cette façon, tout le monde est (dés) heureux. Les tables les plus importantes, [selon les docs] (http://www.mediawiki.org/wiki/Manual:Database_layout), sont la page, la révision, les pagelinks et le texte. –

Questions connexes