Vous pouvez utiliser unnest_tokens()
plus d'une fois, si cela est approprié à votre analyse. D'abord, vous pouvez utiliser unnest_tokens()
pour obtenir les lignes souhaitées. Notez que j'ajoute une colonne pour garder trace de l'identifiant de chaque ligne; vous pouvez l'appeler comme vous voulez, mais l'important est d'avoir une colonne qui indiquera quelle ligne vous êtes.
library(tidytext)
library(dplyr)
library(janeaustenr)
d <- data_frame(txt = prideprejudice)
d_lines <- d %>%
unnest_tokens(line, txt, token = "lines") %>%
mutate(id = row_number())
d_lines
#> # A tibble: 10,721 × 2
#> line
#> <chr>
#> 1 pride and prejudice
#> 2 by jane austen
#> 3 chapter 1
#> 4 it is a truth universally acknowledged, that a single man in possession
#> 5 of a good fortune, must be in want of a wife.
#> 6 however little known the feelings or views of such a man may be on his
#> 7 first entering a neighbourhood, this truth is so well fixed in the minds
#> 8 of the surrounding families, that he is considered the rightful property
#> 9 of some one or other of their daughters.
#> 10 "my dear mr. bennet," said his lady to him one day, "have you heard that
#> # ... with 10,711 more rows, and 1 more variables: id <int>
Maintenant, vous pouvez utiliser unnest_tokens()
à nouveau, mais cette fois avec words
afin que vous obtiendrez une ligne pour chaque mot. Notez que vous savez toujours de quelle ligne provient chaque mot.
d_words <- d_lines %>%
unnest_tokens(word, line, token = "words")
d_words
#> # A tibble: 122,204 × 2
#> id word
#> <int> <chr>
#> 1 1 pride
#> 2 1 and
#> 3 1 prejudice
#> 4 2 by
#> 5 2 jane
#> 6 2 austen
#> 7 3 chapter
#> 8 3 1
#> 9 4 it
#> 10 4 is
#> # ... with 122,194 more rows
Maintenant, vous pouvez faire tout type de comptage que vous voulez, par exemple, peut-être vous voulez savoir combien de mots chaque ligne avait en elle?
d_words %>%
count(id)
#> # A tibble: 10,715 × 2
#> id n
#> <int> <int>
#> 1 1 3
#> 2 2 3
#> 3 3 2
#> 4 4 12
#> 5 5 11
#> 6 6 15
#> 7 7 13
#> 8 8 11
#> 9 9 8
#> 10 10 15
#> # ... with 10,705 more rows
Qu'est-ce que 'amazonr_tidy_sent' ressemble? – Gopala
Deux colonnes: "asin" (par exemple, B000M341QE, B000J3OTO6 etc.) et "mot". La colonne "word" contient des commentaires tokenisés en lignes utilisant 'unnest_tokens' –
Pouvez-vous poster' dput (head (amazonr_tidy_sent, 10)) '? – Gopala