J'utilise tidytext
(et tidyverse
) pour analyser certaines données de texte (comme dans Tidy Text Mining with R).Etiquetage de section simple avec tidytext pour la saisie de texte en clair
Mon fichier texte d'entrée, myfile.txt
, ressemble à ceci:
# Section 1 Name
Lorem ipsum dolor
sit amet ... (et cetera)
# Section 2 Name
<multiple lines here again>
avec quelque 60 sections.
Je voudrais générer une colonne section_name
avec les chaînes "Category 1 Name"
ou "Category 2 Name"
comme valeurs pour les lignes correspondantes. Par exemple, je
library(tidyverse)
library(tidytext)
library(stringr)
fname <- "myfile.txt"
all_text <- readLines(fname)
all_lines <- tibble(text = all_text)
tidiedtext <- all_lines %>%
mutate(linenumber = row_number(),
section_id = cumsum(str_detect(text, regex("^#", ignore_case = TRUE)))) %>%
filter(!str_detect(text, regex("^#"))) %>%
ungroup()
qui ajoute une colonne tidiedtext
pour le numéro de section correspondante pour chaque ligne.
Est-il possible d'ajouter une seule ligne à l'appel à mutate()
pour ajouter une telle colonne? Ou y a-t-il une autre approche que je devrais utiliser?
Merci! C'est à peu près ce que je cherchais. – weinerjm