J'essaie d'obtenir la première ligne de tous les fichiers HDFS dans le répertoire "/ user" de mon cluster.Existe-t-il un moyen d'obtenir la première ligne de tous les fichiers HDFS dans un répertoire?
Actuellement, nous avons une table Hive qui contient des informations sur ces fichiers tels que propriétaire, chemin complet (emplacement), ID de l'entreprise du propriétaire, date de création du fichier, autorisations de lecture/écriture, etc. à cette table Hive qui contient la première ligne complète du fichier.
C'est pourquoi je cherche un moyen d'extraire la première ligne de tous les fichiers HDFS dans un répertoire (dans mon cas, le répertoire "/ user"). Puis-je réaliser cela en utilisant Spark peut-être?
Cela a fonctionné pour moi! merci @philantrovert !! – PreethiS