J'ai du mal à comprendre l'exploration de texte et à déterminer les fréquences des mots. Je commence juste à avoir une compréhension de R et de ses paquets et je viens de découvrir tm (après avoir lu un moment, j'ai le sentiment que cela pourrait résoudre mon problème).R Text Mining - le mot le plus courant dans une chaîne de caractères entière
Ma question est: comment puis-je déterminer les deux plus fréquemment utilisés dans une chaîne sur toute la colonne?
je l'exemple suivant:
structure(list(Location = c("Chicago", "Chicago", "Chicago",
"LA", "LA", "LA", "LA", "LA", "LA", "Texas", "Texas", "Texas",
"Texas", "Texas"), Code = c(4450L, 4450L, 4450L, 4450L, 4450L,
4450L, 4450L, 4450L, 4450L, 4410L, 4410L, 4410L, 4410L, 4410L
), Description = c("LABOR - CROSSOVER BOARD BRACKET", "LABOR - CROWN DOOR GASKET",
"LABOR - CROWN DOOR GASKET - APPLY 4' NEW GASKET AND RE-APPLY",
"LABOR - CUSHIONING DEVICE - END OF CAR CUSTOMER SUPPLIED MATERIAL",
"LABOR - DOOR EDGE", "LABOR - DOOR GASKET, CROWN CORNER", "LABOR - DOOR LOCK POCKET STG",
"LABOR - DOOR LOCK RECEPTICALS STG", "LABOR - DOOR LOCK STG",
"BOLT, HT, UNDER 5/8\"\" DIA & 6\"\" - SIDE POST", "BOLT, HT, UNDER 5/8\"\" DIA & 6\"\" - TRAINLINE TROLLEY",
"BOLT,HT,5/8 IN.DIA.OR LESS UNDER 6\"\" LONG - BRAKE STEP", "BOLT,HT,5/8 IN.DIA.OR LESS UNDER 6\"\" LONG - CROSSOVER BOARD",
"BOLT,HT,5/8 IN.DIA.OR LESS UNDER 6\"\" LONG - CROSSOVER BOARD BRACKET"
), `Desired Description Based on frequency` = c("Labor - CROWN DOOR GASKET",
"Labor - CROWN DOOR GASKET", "Labor - CROWN DOOR GASKET", "Labor - DOOR LOCK",
"Labor - DOOR LOCK", "Labor - DOOR LOCK", "Labor - DOOR LOCK",
"Labor - DOOR LOCK", "Labor - DOOR LOCK", "Bolt - HT", "Bolt - HT",
"Bolt - HT", "Bolt - HT", "Bolt - HT")), .Names = c("Location",
"Code", "Description", "Desired Description Based on frequency"
), row.names = c(NA, -14L), class = "data.frame")
En fin de compte, je voudrais pouvoir ajouter cette colonne:
Desired Description Based on frequency
Labor - CROWN DOOR GASKET
Labor - CROWN DOOR GASKET
Labor - CROWN DOOR GASKET
Labor - DOOR LOCK
Labor - DOOR LOCK
Labor - DOOR LOCK
Labor - DOOR LOCK
Labor - DOOR LOCK
Labor - DOOR LOCK
Bolt - HT
Bolt - HT
Bolt - HT
Bolt - HT
Bolt - HT
Fondamentalement, je veux évaluer tous les 4450 ou 4410s et de voir sur tous les la description dans le tableau, qui le plus commun et ajouter que comme une colonne. Une autre condition serait basée sur l'emplacement. Quelqu'un peut-il m'aider s'il vous plaît avec un exemple simple?
Merci beaucoup
Bienvenue ALORS. Veuillez utiliser 'dput' pour fournir vos données d 'entrée et le cadre de données de sortie désiré (aimée dans l' info - lettre R sur l 'étiquette). – lukeA
Merci Luc. Mes données d'entrée sont énormes, donc j'en ai pris une petite fraction pour montrer un exemple simple de ce que je souhaite réaliser. Je peux fournir plus d'informations si ce n'est pas assez clair. – iCosmin
Je voulais dire: veuillez éditer votre message et remplacer l'échantillon de données par 'dput (datasample)' - cela facilite l'importation de l'échantillon dans une session R et la lecture/expérimentation avec celui-ci. La façon dont vous l'avez fourni, il faudrait placer un délimiteur pour l'importer. – lukeA