Je commence juste à apprendre Hadoop, et je me demande ce qui suit: supposons que j'ai un tas de grandes tables de production MySQL que je veux analyser.Récupérer des données de MySQL dans Hadoop
- Il semble que je dois vider toutes les tables dans des fichiers texte, afin de les mettre dans le système de fichiers Hadoop - est-ce correct, ou est-il une certaine manière que Hive ou de porc ou tout ce qui peut accéder aux données de MySQL directement?
- Si je vide toutes les tables de production dans des fichiers texte, dois-je m'inquiéter d'affecter les performances de production pendant le vidage? Est-ce que cela dépend du moteur de stockage utilisé par les tables? Que dois-je faire?)
- Vaut-il mieux déposer chaque table dans un seul fichier, ou diviser chaque table en 64 Mo (ou quelle que soit ma taille de bloc?) des dossiers?
+1 pour SQOOP ref –