Il s'agit probablement d'une question stupide, mais je suis allé sur Google et googlé et ne trouve pas de solution. Je pense que c'est parce que je ne connais pas la bonne façon de formuler ma question à chercher.En face de unnest_tokens
J'ai un cadre de données que j'ai converti pour ranger le format de texte dans R pour se débarrasser des mots d'arrêt. Je voudrais maintenant «désordonner» ce cadre de données à son format original.
Quelle est la commande inverse/inverse de unnest_tokens?
Editer: voici à quoi ressemblent les données avec lesquelles je travaille. J'essaie de reproduire des analyses tirées du livre Tidy Text de Silge and Robinson, mais en utilisant des librettos d'opéra italiens.
character = c("FIGARO", "SUSANNA", "CONTE", "CHERUBINO")
line = c("Cinque... dieci.... venti... trenta... trentasei...quarantatre", "Ora sì ch'io son contenta; sembra fatto inver per me. Guarda un po', mio caro Figaro, guarda adesso il mio cappello.", "Susanna, mi sembri agitata e confusa.", "Il Conte ieri perché trovommi sol con Barbarina, il congedo mi diede; e se la Contessina, la mia bella comare, grazia non m'intercede, io vado via, io non ti vedo più, Susanna mia!")
sample_df = data.frame(character, line)
sample_df
character line
FIGARO Cinque... dieci.... venti... trenta... trentasei...quarantatre
SUSANNA Ora sì ch'io son contenta; sembra fatto inver per me. Guarda un po', mio caro Figaro, guarda adesso il mio cappello.
CONTE Susanna, mi sembri agitata e confusa.
CHERUBINO Il Conte ieri perché trovommi sol con Barbarina, il congedo mi diede; e se la Contessina, la mia bella comare, grazia non m'intercede, io vado via, io non ti vedo più, Susanna mia!
Je passe en texte bien rangé pour que je puisse me débarrasser des mots d'arrêt:
tribble <- sample_df %>%
unnest_tokens(word, line)
# Get rid of stop words
# I had to make my own list of stop words for 18th century Italian opera
itstopwords <- data_frame(text=mystopwords)
names(itstopwords)[names(itstopwords)=="text"] <- "word"
tribble2 <- tribble %>%
anti_join(itstopwords)
Maintenant, j'ai quelque chose comme ceci:
text word
FIGARO cinque
FIGARO dieci
FIGARO venti
FIGARO trenta
...
Je voudrais récupérer dans le format du nom du personnage et la ligne associée pour regarder d'autres choses. Fondamentalement, j'aimerais que le texte soit dans le même format que précédemment, mais avec des mots d'arrêt supprimés.
Salut, s'il vous plaît lire [ce] (https://stackoverflow.com/questions/5963269/how-to-make-a-great-r-reproducible-example) et modifier votre question. En savoir plus sur ce que sont vos données et ce que vous avez fait permettra aux autres utilisateurs de vous aider. – shea