Je travaille sur un projet où je veux gratter une page comme celle-ci, afin d'obtenir la ville d'origine. J'ai essayé d'utiliser le sélecteur CSS: » .type-12 ~ .type-12 + .type-12" Cependant, je ne comprends pas le texte dans R.ne pas gratter la source html, mais le site réel
Lien: https://www.kickstarter.com/projects/1141096871/support-ctrl-shft/description
J'utilise rvest et et la fonction read_html.
Cependant, il semble que la source contient des scripts. Y at-il un moyen de gratter le site après que les scripts ont retourné leurs résultats (comme vous le voyez avec un navigateur)?
PS Je regardais des questions similaires, mais ai trouvé la réponse ..
code:
main.names <- read_html(x = paste0("https://www.kickstarter.com/projects/1141096871/support-ctrl-shft/description")) # feed `main.page` to the next step
names1 <- main.names %>% # feed `main.page` to the next step
html_nodes("div.mb0-md") %>% # get the CSS nodes
html_text()# extract the text
Cette API ne fournit aucune information sur le pays d'origine ou d'autres informations sur le projet. Ou est-ce que je manque quelque chose? Les seules possibilités que je vois sont liées à des actions ou des mises à jour de maintenance. – nemja
http://syntaxi.net/2013/03/24/let-s-explore-kickstarter-s-api/ https://github.com/markolson/kickscraper Et encore. Quels outils utilisez-vous? Avec BeatifulSoup (son python non R) je pourrais obtenir les infos. – hansTheFranz
J'utilise R: main.names <- read_html (x = paste0 ("https://www.kickstarter.com/projects/1141096871/support-ctrl-shft/description")) # feed 'main.page' à l'étape suivante names1 <- main.names%>% # alimente 'main.page' à l'étape suivante html_nodes (" div.mb0-md ")%>% # récupère les noeuds CSS html_text() # extrait le noms de films (Voir édition) – nemja