Je veux utiliser R pour analyser toutes les nouvelles (titre, URL et texte) liées à AlphaGo dans XXX, et l'URL de la page est http://www.xxxxxx.com/search/?q=AlphaGo
. Voici mon code:informations manquantes dans les données d'exploration
url <- "http://www.xxxxxx.com/search/?q=AlphaGo"
info <- debugGatherer()
handle <- getCurlHandle(cookiejar ="",
#turn the page
followlocation = TRUE,
autoreferer = TRUE,
debugfunc = info$update,
verbose = TRUE,
httpheader = list(
from = "[email protected]",
'user-agent' = str_c(R.version$version.string,
",",R.version$platform)
))
html <- getURL(url,curl=handle,header = TRUE)
parsedpage <- htmlParse(html)
Cependant, lorsque j'utilise le code
xpathSApply(parsedpage,"//h3//a",xmlGetAttr,"href")
pour vérifier si j'ai trouvé le code cible, je trouve que tout le contenu de l'information des nouvelles connexes manque. Ensuite, j'ai trouvé que le DOM elements
(Chrome est ce que j'ai utilisé) après avoir appuyé sur F12
contient les informations que je veux, tandis que rien dans sources
(ce qui est vraiment désordonné comme tous les éléments sont empilés ensemble). Donc, je change mon code à:
parsed_page <- htmlTreeParse(file = url,asTree = T)
avec l'espoir d'acquérir le dom tree à la place. Encore, cette fois l'information est manquante, ce que je trouve est que toutes les informations manquantes sont les informations pliées dans le DOM elements
(je n'ai jamais rencontré cette situation auparavant).
Une idée de comment le problème se produit et comment je pourrais résoudre ce problème?
Quelle est la sortie que vous voulez? Une liste d'URL ou le texte de chaque page? –
Les deux, quelque chose ne va pas avec mon code? – exteralvictor
Vous violez l'article 3 dans le CNC ToC. Veuillez vous assurer d'informer les autres que vous leur demandez de vous aider dans un comportement contraire à l'éthique qui pourrait leur infliger des amendes ou des peines d'emprisonnement. – hrbrmstr