J'ai un tas de fichiers HTML dans mon Data Lake Store et je voudrais obtenir leur code source complet dans une table (une seule colonne avec le code de tous les fichiers, le format de sortie ne me concerne pas, mais probablement tsv). Je ne peux pas trouver un moyen d'utiliser les extracteurs standard ou quoi que ce soit sur le web qui fonctionne pour moi. Dois-je écrire un extracteur personnalisé pour cela?Extraction de fichiers U-SQL contenu complet (extraction du code source complet à partir de fichiers html)
J'ai essayé les Extractors.Tsv() et Extractors.Text() avec tout un tas de délimiteurs. J'ai d'abord essayé:
@data =
EXTRACT source string
FROM "<MY DIRECTORY IN ADL>"
USING Extractors.Text(delimiter:'');
Ce ne fonctionnait pas comme il semble que ne pas avoir pas delimiter, mais aussi quand j'ai essayé d'utiliser délimiteurs qui ne sont pas dans les fichiers html il n'a pas entraînez.
Quelqu'un a-t-il une idée de ce qu'il faut faire? Il me semble que je suis juste stupide, alors j'espère que quelqu'un ici est un peu plus intelligent.
Encore mieux que le code source serait si j'avais le code source + nom de fichier dans deux colonnes, mais je veux commencer petit.
Merci!
Est-ce encore un problème? Voir mon commentaire à la réponse de David. –