2016-05-03 1 views
0

J'ai une page Web « http://www.jabong.com/playdate-Off-White-Casual-Top-1342500.html?pos=1 » et je suis en mesure d'obtenir le code HTML de ... mais je dois extraire certaines informations ... à partir de la page ci-dessus je besoin des informations ci-dessous:Extraire une information particulière d'un code HTML d'une page Web?

type : Hauts décontractés, Tissu: Coton, Manches: 1/2 manches, Cou: Col rond, Coupe: Régulière, Entretien: Laver à la main, Utiliser des détergents doux, Enlever les ceintures/Broches avant lavage, Couleur: Blanc cassé, Tissu Détails: 95/5 Lycra coton, style: graphique, SKU: PL527KA99JYQINDFAS

+0

Vous avez besoin d'un package Web Scraping, tel que [rvest] (https://github.com/hadley/rvest). – alistaire

+0

@alistaire: Vous n'avez pas obtenu la bonne question .. Je suis capable d'obtenir le code HTML complet ... J'ai besoin d'extraire des informations particulières seulement ... donc je suppose que le paquet Stringr aidera .. mais j'ai besoin d'un code qui peut extraire information particulière .. remerciements –

+1

'rvest' peut gratter, oui, mais la plupart des grattage est l'analyse, ce qui est ce que vous devez faire. Ne pas analyser HTML avec regex; C'est une mauvaise idée. – alistaire

Répondre

2

Vous avez besoin d'un grattoir HTML/analyseur tel que rvest:

library(rvest) 

url <- 'http://www.jabong.com/playdate-Off-White-Casual-Top-1342500.html?pos=1' 

# get HTML, select list node with the information 
page <- url %>% read_html() %>% html_node('.prod-main-wrapper') 

# select the nodes within the list of each type, and get the text inside 
variable <- page %>% html_nodes('label') %>% html_text() 
value <- page %>% html_nodes('span') %>% html_text() 

# put the text in a nice data.frame 
data.frame(variable, value) 
#   variable                value 
# 1   Type               Casual Tops 
# 2   Fabric                Cotton 
# 3   Sleeves              Half Sleeves 
# 4   Neck               Round neck 
# 5    Fit                Regular 
# 6  Wash Care Hand Wash, Use Mild Detergents, Remove Belts/Broaches Before Wash 
# 7   Color               Off White 
# 8 Fabric Details             95/5 Cotton Lycra 
# 9   Style                Graphic 
# 10   SKU             PL527KA99JYQINDFAS 
# 11 Authorization   Playdate authorized online sales partner. View Certificate