J'essaie de mettre en place une petite application Android qui extrait le contenu d'une page Web en utilisant la bibliothèque Goose. Puisque la bibliothèque est écrite en Scala, j'utilise le .jar que j'ai trouvé here. Le problème est, quand j'essaye d'extraire le contenu d'une page, il ne retourne rien. J'ai réussi à créer un objet Article
en utilisant l'URL dont j'ai besoin, mais les valeurs de l'objet (titre, domaine, topImage, etc.) sont tous null
. J'ai essayé d'utiliser des URL différentes, pour voir si le problème était isolé sur un seul site web, mais cela ne semble pas être le cas.Java Goose ne pas extraire le contenu sur Android
Le code que j'utilise pour mettre en place l'instance Goose
est ceci:
gooseDir = context.getCacheDir();
Configuration config = new Configuration();
config.setLocalStoragePath(gooseDir.getAbsolutePath());
Goose goose = new Goose(config);
Et puis je viens de créer l'instance Article
comme ceci:
Article article = goose.extractContent(url);
Un conseil?