2016-09-23 1 views
0

je copie des données de HDFS à S3 en utilisant la commande ci-dessous:Copier l'emplacement de s3 en utilisant la commande distcp

$ hadoop distcp -m 1 /user/hive/data/test/test_folder=2015_09_19_03_30 s3a://data/Test/buc/2015_09_19_03_30 

seau 2015_09_19_03_30 n'existe pas dans S3. Il copie avec succès les données du répertoire /user/hive/data/test/test_folder=2015_09_19_03_30 dans le compartiment S3 2015_09_19_03_30, mais lorsque j'exécute à nouveau la même commande, il crée un autre compartiment dans S3.

Je veux que les deux fichiers doivent être dans le même compartiment.

Répondre

1

Tel est le cas que vous essayiez à droite, parce qu'il met de nouveaux fichiers dans le même seau

// first there is no data 
$ hadoop fs -ls s3n://testing/ 
$ 

// then dist cp the data in dir input to testing bucket 
$ hadoop distcp input/ s3n://testing/ 
$ hadoop fs -ls s3n://testing/ 
Found 1 items 
drwxrwxrwx -   0 1970-01-01 00:00 s3n://testing/input 
$ hadoop fs -ls s3n://testing/input/ 
Found 3 items 
-rw-rw-rw- 1  1670 2016-09-23 13:23 s3n://testing/input/output 
-rw-rw-rw- 1  541 2016-09-23 13:23 s3n://testing/input/some.txt 
-rw-rw-rw- 1  1035 2016-09-23 13:23 s3n://testing/input/some2.txt 
$ 
// added new file a.txt in input path 
// and executed same command 
$ hadoop distcp input/ s3n://testing/ 
$ hadoop fs -ls s3n://testing/input/ 
Found 4 items 
-rw-rw-rw- 1   6 2016-09-23 13:26 s3n://testing/input/a.txt 
-rw-rw-rw- 1  1670 2016-09-23 13:23 s3n://testing/input/output 
-rw-rw-rw- 1  541 2016-09-23 13:23 s3n://testing/input/some.txt 
-rw-rw-rw- 1  1035 2016-09-23 13:23 s3n://testing/input/some2.txt 
$