J'essaie de transformer un vecteur de caractères novel.lower.mid en une liste de mots simples. Jusqu'à présent, c'est le code que j'ai utilisé:Comment diviser des mots dans R tout en gardant les contractions
midnight.words.l <- strsplit(novel.lower.mid, "\\W")
Ceci donne une liste de tous les mots. Cependant, il divise tout, y compris les contractions. Le mot "ne peut pas" devient "peut" et "t". Comment est-ce que je m'assure que ces mots ne sont pas séparés, ou que la fonction ignore juste l'apostrophe?
Qu'est-ce que tes mots sont-ils délimités par? Avez-vous des exemples de données? – steveb
@steveb Je ne sais pas vraiment ce que mes données sont délimitées par. Voici une partie de l'échantillon de données: classe (novel.lower.mid) [1] « caractère » novel.lower.mid [1] "livre une à la feuille perforée je suis né dans la ville de bombay. Il est une fois, non, ça ne va pas, il n'y a pas moyen de sortir de la date: je suis né dans la maison de retraite du docteur narlikar le 15 août 1947. et le temps, le temps compte aussi. la nuit, non, c'est important d'être plus ... – Stefano