J'ai extrait le texte de fichiers pdf et créé un objet corpus.tm_map fusion de lignes à condition
Dans les textes, j'ai des lignes se terminant par "," ou "-" et je voudrais leur ajouter la ligne suivante, car elle appartient à la même phrase.
Par exemple, j'ai
[1566] "this and other southeastern states (Eukerria saltensis,"
[1567] "Sparganophilus helenae, Sp. tennesseensis). In the"
Et je voudrais avoir la place
[1566] "this and other southeastern states (Eukerria saltensis, Sparganophilus helenae, Sp. tennesseensis). In the"
J'ai essayé des choses comme remplacer les sauts de ligne, mais sans succès:
tm_map(myCorpus, content_transformer(gsub), pattern =",$\n",replacement = "")
Tous idée sur la façon dont je peux le faire dans R?