2012-06-30 6 views
2

J'ai une instance ec2 (réseau 10 Go, AMI: EC2 HVM AMI EC2 CentOS 5.5 (pilote 260.19.29) (ami-42a2532b)) avec 20 volumes EBS attachés dans raid-0. À la suite de la panne d'AWS de la nuit dernière, 9 de ces volumes ont été marqués «altéré, incohérence possible des données» et E/S désactivés. L'instance est maintenant arrêtée. Les volumes attendent "Activer E/S".EBS Raid-0: 9 volumes EBS sur 20 "altérés". Maintenant quoi?

En outre, le petit volume EBS qui ne fait pas partie de la baie RAID et qui a la partition racine a également été endommagé. AWS recommande d'activer les E/S des volumes endommagés, puis d'exécuter fsck sur ces volumes, mais cela ne s'applique évidemment pas aux volumes EBS utilisés dans une baie RAID.

Quel serait le moyen le plus sûr de procéder pour essayer de récupérer ce tableau? Je comprends que je pourrais tout perdre et c'est pourquoi nous avons des plans d'urgence (juste beaucoup plus de temps pour récupérer), mais je préfère mettre toutes les chances de mon côté et essayer de récupérer/réparer le tableau. Alors, quelle est la séquence d'actions la plus sûre?

Merci.

Répondre

2

Je voulais donner une mise à jour et fermer cette question. Essentiellement tout s'est bien passé et je n'ai pas eu de corruption de données. FSCK a fonctionné correctement, et la base de données parallèle qui utilise ce tableau a bien démarré et tout va bien.

Voici quelques commandes qui ont aidé à recueillir des données que je marchais dans le précautionneusement champ de mines:

  • mdadm --detail /dev/md0 >md0_detail obtenir un aperçu du tableau de raid.
  • mdadm --examine /dev/sd[fghijklmnopqrstuvwxy] > examine_sd Examinez chaque composant de la matrice de raid.
  • Vérifiez que toutes les sommes de contrôle sont correctes. Etant donné que les tests de bas niveau semblaient satisfaisants, vous avez tenté de monter le périphérique RAID.

Notes:

  • Les fs réelles utilisées par le dispositif est ext4 (journalisé)
  • Il est bien passé et en passant par elle semblait tout était là où il devrait être.

D'autres actions:

  • umount /data Démontez le tableau de raid avant d'effectuer fsck.
  • fsck /dev/md0 Tout est sorti propre, aucun problème.
  • mount -o noatime /dev/md0 /data Enfin, montez le périphérique pour de bon.
+0

Vous êtes un économiseur en direct !!, avec cela, je pourrais restaurer mon RAID5 –

Questions connexes