2017-10-11 5 views
1

J'ai un fichier texte et je veux le nombre de fréquence de deux ensembles de mots. par exemple:Nombre de mots multiples comptés dans la chaîne

setone <- ("mumbai", "delhi", "chennai") 

settwo <- ("nike", "zara","puma") 

textfile <- ("brands in cites like nike zara and puma in mumbai, delhi and chennai. while many exotic brands in mumbai... disel, durby, Calvin Kline") 

Sortie requise manière suivante:

File Name setone  settwo Total 
Textfile  4   3  7 

S'il vous plaît aider.

+2

Qu'est-ce que vous avez essayé jusqu'à présent? – user3640617

+2

Bienvenue sur SO. S'il vous plaît prenez la [tournée] et assurez-vous de lire [MCVE] car cela vous aidera à éviter de fermer vos questions! –

Répondre

1

est une méthode ici:

library(tidyverse) 
library(stringr) 

setone <- c("mumbai", "delhi", "chennai") 

settwo <- c("nike", "zara","puma") 

textfile <- (
    "brands in cites like nike zara and puma in mumbai, delhi and chennai. 
    while many exotic brands in mumbai... disel, durby, Calvin Kline") 

out <- tibble(
    textfile = textfile, 
    setone = str_count(textfile, str_c(setone, collapse = '|')), 
    settwo = str_count(textfile, str_c(settwo, collapse = '|')) 
) 
out <- mutate(out, total = setone + settwo)