J'ai un dataframe avec une colonne de noms de sociétés. Je veux créer une nouvelle colonne qui est une version floue/canonisés du nom (en utilisant peut-être regex à bande suffixes comme « société « inc » et « llc » et préfixes comme « le »).Comment utiliser regex dans R pour créer une nouvelle colonne de noms de société canonialisée?
name <- c("Microsoft", "Apple, Inc.", "Youtube, LLC", "Huffington Post")
companies <- data.frame(name)
Je veux compagnie canonicalized_name $ pour revenir
"microsoft", "apple", "youtube", "huffington post"
Comment puis-je écrire ce modèle regex en R?
Il serait beaucoup plus intuitif d'avoir l'intersection en premier, puis d'utiliser 'agrep' pour trouver la correspondance la plus proche avec les noms dans list_1 et list_2. par exemple. 'lookup <- c (" microsoft "," apple "," youtube "," huffington post "); lapply (recherche, agrep, c (liste_1, liste_2), valeur = T) ' –
a. Ce sont des vecteurs, pas des listes; b. Qu'avez-vous essayé jusqu'à présent?; c. 'adist' est un point de départ. – alistaire