2017-10-02 6 views
1

J'essaie de combiner des termes dans un dtm. Je l'ai changé à une trame de données afin que je puisse obtenir un head pour cette question, voici que:Comment combiner des termes dans une matrice de termes de document?

structure(list(word = structure(c(5L, 10L, 11L, 13L, 15L, 17L), .Label = c("abandon", "abil", "abort", "abraham", "abroad", "abus", "academi", "acceler", "accept", "access", "accid", "accomplish", "account", "accumul", "achiev", "acknowledg", "acrosstheboard", "act", "action", "activ", "actual", "adapt", "add", "addict", "address", "adher", "administr", "admiss", "admit", "adopt", "advanc", "advantag", "advers", "adversari", "advic", "advoc", "affili", "afford", "afghan", "afghanistan", "afraid", "africa", "african", "age", "agenc", "agenda", "agendaâ€", "aggress", "ago", "agre", "agreement", "ahead", "aid", "aint", "air", "airport", "airstrik", "aisl", "alan", "alexand", "alien", "align", "alik", "aliv", "alli", "allianc", "allin", "alloftheabov", "allow", "alltim", "amanda", "amaz", "ambiti", "amount", "andra", "anew", "angel", "annapoli", "anniversari", "announc", "answer", "antisemit", "antonin", "antsi", "anxiousâ€", "anyon", "anytim", "apart", "appeal", "appl", "applaud", "applaus", "applauseâ€", "applic", "appoint", "apprenticeship", "approach", "approv", "approxim", "arab", "area", "arent", "argu", "argument", "arizona", "arm", "armi", "arsenal", "artifici", "artist", "asia", "asiaâ€", "asian", "asiapacif", "ask", "aspir", "assembl", "assist", "asthma", "astronaut", "attack", "attempt", "attend", "attent", "attitud", "attract", "audienc", "austin", "australia", "author", "auto", "autom", "automak", "automat", "autowork", "averag", "avoid", "babi", "background", "backlog", "bacteria", "bad", "bailout", "balanc", "ballist", "ballot", "baltimor", "ban", "banâ€", "bank", "bankrol", "bankrupt", "bankruptci", "bare", "bargain", "barkeep", "base", "basest", "basic", "batter", "battl", "bay", "beach", "beachhead", "bear", "beat", "beauti", "bedrock", "began", "begin", "begun", "behalf", "beij", "belgium", "belief", "believ", "bell", "belong", "ben", "beneath", "benefit", "benghazi", "bernardino", "beshear", "betray", "bevin", "bibl", "biden", "bidenâ€", "big", "bigger", "biggest", "bigheart", "bill", "billion", "bin", "bipartisan", "birth", "bisexu", "bite", "black", "bleed", "bless", "blind", "blood", "blow", "blue", "bluster", "board", "boardroom", "bodi", "bold", "bomb", "bond", "bonetir", "boom", "boost", "border", "born", "borrow", "boss", "boston", "bottom", "bought", "bounc", "bound", "boy", "bracamont", "brain", "brake", "branch", "brand", "brave", "braver", "braveri", "break", "breakthrough", "bridg", "brief", "bright", "brighter", "bring", "broad", "broadband", "broaden", "broader", "brochur", "broke", "broken", "brother", "bubbl", "buck", "budg", "budget", "build", "builder", "built", "bulli", "burden", "burdensom", "bureaucraci", "bureaucrat", "burma", "bus", "busi", "bustl", "buy", "cabl", "california", "call", "camp", "campaign", "campus", "canada", "canal", "cancer", "cap", "capabl", "capac", "capit", "capitalâ€", "capitol", "captain", "car", "carbon", "card", "care", "careâ€", "career", "caregiv", "carolina", "carpetbomb", "carri", "carryn", "cartel", "carver", "case", "cast", "catch", "categori", "caught", "celebr", "cell", "cemeteri", "cent", "centenni", "center", "centerâ€", "central", "centrifug", "centuri", "ceo", "ceremoni", "chain", "chair", "challeng", "challengeâ€", "chamber", "chanc", "chanceâ€", "chang", "chao", "chapter", "charg", "chariti", "chart", "charter", "cheaper", "check", "checklist", "cheer", "chemic", "cherish", "chicago", "chief", "child", "childcar", "childhood", "children", "china", "chines", "choic", "choos", "chorus", "chosen", "christian", "chrysler", "church", "churn", "chute", "circumst", "citi", "citizen", "citizenship", "civil", "civilian", "claim", "class", "classmat", "classroom", "clean", "cleaner", "clear", "clerk", "client", "climat", "clock", "close", "closer", "closest", "coal", "coalit", "coast", "coastal", "code", "cold", "collaps", "collect", "colleg", "colombia", "color", "colorado", "coma", "combat", "combin", "come", "command", "commerc", "commiss", "commit", "commitmentâ€", "common", "commonwealth", "communism", "communiti", "commut", "compani", "compassion", "compet", "competit", "competitivenessâ€", "complain", "complet", "complex", "complic", "comprehens", "compromis", "comput", "comrad", "concentr", "concern", "conclus", "concret", "condemn", "condit", "confid", "confirm", "conflict", "congression", "congressman", "connect", "consequ", "conserv", "consolid", "constant", "constitut", "constrain", "construct", "consum", "contest", "continu", "contract", "contractor", "contradict", "contribut", "control", "controversi", "convent", "convert", "convict", "convinc", "cook", "cooper", "coordin", "cop", "core", "cori", "corpor", "correct", "corrupt", "cost", "costco", "couldnt", "council", "count", "counter", "counterterror", "counti", "countless", "countri", "coupl", "courag", "court", "cover", "coverag", "craig", "creat", "creation", "creativ", "credibl", "credit", "creed", "crime", "crimin", "crise", "crisi", "crisscross", "critic", "cross", "crowd", "crowley", "crucial", "crumbl", "crush", "cuba", "cuban", "cultur", "cultureâ€", "cure", "current", "curriculum", "curv", "custom", "cut", "cvs", "cyber", "cycl", "cynic", "cystic", "dad", "daili", "dakota", "damag", "dame", "danger", "danni", "dare", "dark", "darkest", "data", "date", "daughter", "davi", "dawn", "day", "dday", "deal", "dealer", "death", "debat", "debt", "decad", "decadeslong", "decenc", "decent", "decid", "decis", "declar", "declin", "deep", "deepen", "deepli", "defeat", "defend", "defens", "deficit", "defin", "degrad", "degre", "deliv", "demand", "demar", "democraci", "democracyâ€", "democrat", "demolish", "demon", "demonstr", "dempsey", "deni", "denisha", "depart", "depend", "deplor", "deploy", "deport", "depress", "deputi", "derail", "deregul", "deserv", "design", "desk", "desper", "destabil", "destini", "destroy", "destruct", "detaine", "detect", "determin", "dethron", "detroit", "devast", "develop", "devot", "diabet", "diagnos", "dial", "dictatorship", "didnt", "die", "differ", "difficult", "digit", "digniti", "dime", "diminish", "dinner", "diplomaci", "diplomat", "direct", "director", "dirtier", "disabl", "disadvantag", "disagr", "disagre", "disast", "disciplin", "discourag", "discoveri", "discuss", "diseas", "dish", "dismantl", "displac", "display", "disput", "disrupt", "distant", "distribut", "district", "disun", "divers", "divid", "divis", "dna", "doctor", "dodg", "doesnt", "dogma", "dollar", "door", "doubl", "doubt", "dough", "dozen", "drag", "drain", "draw", "drawn", "dream", "dreamer", "dreamsâ€", "drew", "dri", "drive", "drone", "drop", "drought", "drown", "drug", "drugresist", "dump", "durabl", "dust", "duti", "dwight", "eager", "earli", "earlier", "earn", "earnedincom", "earth", "earthquak", "eas", "easi", "easier", "east", "ebay", "ebola", "echo", "econom", "economi", "economist", "edg", "edison", "educ", "educationâ€", "effect", "effici", "effort", "egg", "eighth", "eisenhow", "elder", "elect", "electedâ€", "electr", "element", "elev", "elimin", "els", "elud", "embargo", "embarrass", "embrac", "emerg", "emiss", "empir", "employ", "employe", "employerbas", "empow", "empti", "encourag", "end", "endang", "endur", "enemi", "energi", "enforc", "engag", "engin", "english", "enjoy", "enorm", "enrich", "enriqu", "enrol", "ensur", "ent", "enter", "entir", "entiti", "entrench", "entrepreneur", "entri", "envi", "environ", "environmentalist", "epidem", "episod", "equal", "equat", "era", "erad", "erler", "espinoza", "estiven", "etch", "etern", "ethic", "ethnic", "europ", "even", "event", "everyon", "evid", "evil", "evolv", "excel", "except", "exchang", "excus", "execut", "exercis", "exist", "expand", "expect", "expens", "experi", "experienc", "expir", "explod", "export", "expos", "express", "extend", "extinguish", "extra", "extract", "extraordinari", "extrem", "extremist", "eye", "face", "fact", "faction", "factor", "factori", "fail", "failur", "fair", "faith", "fake", "fall", "fallen", "famili", "familiesâ€", "famin", "fanat", "fanfar", "fantasticâ€", "farm", "farmer", "farmland", "fascism", "fast", "faster", "fastest", "fate", "father", "favor", "fcc", "fda", "fear", "feder", "feed", "feel", "feet", "fellow", "felt", "ferguson", "fewer", "fiat", "fibrosi", "fiction", "field", "fierc", "fifteen", "fifti", "fight", "fighter", "figur", "file", "fill", "final", "financ", "financi", "find", "finest", "finetun", "finish", "firm", "firstclass", "fiscal", "fix", "flag", "flat", "flawsâ€", "flexibl", "fli", "flip", "flood", "flow", "focus", "foeâ€", "folk", "follow", "food", "foot", "footprint", "forc", "ford", "forebear", "forego", "foreign", "foremost", "forev", "forg", "forget", "forgotten", "form", "forsak", "forti", "fortun", "fortythre", "forward", "fossil", "fought", "found", "foundat", "founder", "fourteen", "fourth", "franc", "franci", "frank", "free", "freedom", "freeli", "freer", "freez", "freight", "friday", "friend", "friendship", "front", "frontier", "frontlin", "frustrat", "fuel", "fueleffici", "fulfil", "full", "fulltim", "function", "fund", "fundrais", "futur", "gaff", "gain", "galleri", "gallon", "game", "gang", "gap", "garag", "gas", "gather", "gave", "gay", "general", "generat", "generos", "genom", "georg", "germani", "gift", "girl", "gis", "gitmo", "giveaway", "glad", "gleam", "global", "globe", "glori", "glorious", "goal", "god", "gold", "good", "goodpay", "googl", "gorsuch", "gotcha", "govern", "governmentapprov", "governor", "grace", "grade", "graduat", "graham", "grandfath", "grandkid", "grandmoth", "grasp", "grate", "graveyard", "gravit", "great", "greater", "greatest", "greet", "grew", "gridlock", "griev", "grind", "grip", "grit", "groceri", "gross", "ground", "group", "grow", "grown", "growth", "gruel", "guantanamo", "guarante", "guess", "guid", "gulf", "gun", "gunman", "gutter", "gutwrench", "hacker", "half", "halt", "hand", "handout", "handson", "happen", "happi", "harass", "hard", "harder", "hardest", "hardship", "hardwork", "harkin", "harleydavidson", "harm", "harmoni", "harshest", "hasnt", "hate", "hatr", "haven", "havent", "hawaii", "head", "headlin", "headwind", "heal", "health", "healthier", "hear", "heard", "heart", "heat", "hedg", "heed", "held", "help", "hemispher", "henri", "here", "hero", "heroic", "heroin", "hes", "hesit", "hidden", "high", "higher", "highest", "highpay", "highqual", "highspe", "hightech", "highwag", "highway", "hinder", "hire", "histor", "histori", "hit", "hivaid", "hizballah", "hold", "holi", "home", "homeland", "homeless", "homeown", "homeownership", "honest", "honestâ€", "honor", "hook", "hope", "hopeless", "hopper", "hospit", "hot", "hotter", "hotterâ€", "hour", "hous", "hub", "human", "humanitarian", "humbl", "humor", "hundr", "hunger", "hunt", "hurt", "husband", "hype", "idea", "ideal", "ident", "ideolog", "ignor", "iii", "ill", "illeg", "illinoi", "imagin", "imit", "immedi", "immigr", "impact", "imper", "implement", "implod", "import", "impos", "imposs", "impress", "improv", "inaud", "inaugur", "incarcer", "incent", "includ", "incom", "increas", "incred", "independ", "individu", "industri", "inequ", "inevit", "inflat", "influenc", "influx", "inform", "infrastructur", "inher", "inherit", "initi", "innoc", "innov", "insid", "insist", "insourc", "inspect", "inspir", "instabl", "instagram", "instal", "institut", "insult", "insur", "integr", "intel", "intellig", "intend", "intent", "interest", "intern", "internet", "interst", "invad", "invent", "inventor", "invest", "involv", "iowa", "ira", "iran", "iraq", "iron", "isi", "isil", "islam", "isnt", "isol", "isra", "israel", "issu", "ive", "jack", "jame", "jamiel", "januari", "japan", "jenna", "jessica", "jet", "jewish", "jill", "jillâ€", "job", "jobcrush", "jobkil", "jobreadi", "joe", "john", "johnson", "join", "joke", "judg", "justic", "justin", "kansa", "katherin", "keep", "keeper", "kelli", "kennedi", "kentucki", "kentuckyâ€", "key", "keyston", "kid", "kidsâ€", "kill", "killer", "kind", "king", "knew", "know", "knowledg", "labor", "ladder", "laden", "ladi", "laid", "land", "larg", "largescal", "largest", "last", "late", "latin", "latino", "laught", "laughter", "laughterâ€", "launch", "law", "lawâ€", "lawless", "lawn", "lawyer", "lay", "lead", "leader", "leadership", "leadershipâ€", "learn", "learningâ€", "leav", "leaveâ€", "led", "left", "leg", "legaci", "legal", "legisl", "legislatur", "lend", "lender", "lesbian", "lesson", "letter", "level", "leverag", "liber", "liberti", "lie", "life", "lifeâ€", "lifeblood", "lifetim", "lift", "light", "limit", "lincoln", "line", "link", "liquid", "list", "listen", "litig", "live", "livelihood", "load", "loan", "lobbi", "lobbyist", "local", "locat", "lockhe", "london", "lone", "long", "longer", "longest", "longterm", "loom", "loophol", "los", "lose", "loss", "lost", "lot", "loud", "love", "low", "lower", "lowest", "lowincom", "loyalti", "luck", "lui", "mad", "made", "magnet", "magnific", "mail", "main", "maintain", "major", "malaria", "mali", "malic", "mall", "man", "manag", "mandat", "manner", "manufactur", "map", "mar", "marathon", "march", "marin", "maritim", "mark", "market", "marketplac", "marri", "marriag", "marvel", "mass", "massiv", "master", "mat", "match", "materi", "matern", "math", "matt", "matter", "matti", "maureen", "maximum", "mayor", "meal", "mean", "meaning", "meant", "meantim", "measur", "media", "medic", "medicaid", "medicar", "medicin", "meet", "megan", "melt", "member", "memori", "men", "mental", "merit", "meritbas", "merriweath", "messag", "met", "michael", "michell", "microcosm", "microsoft", "midatlant", "middl", "midst", "midwest", "migrat", "mileston", "militari", "millennia", "miller", "million", "mind", "mine", "mineâ€", "miner", "minimum", "minist", "minneapoli", "minnesota", "minor", "minut", "miracl", "mire", "misfortun", "misguid", "missil", "mission", "mistak", "misti", "mistreat", "mistrust", "mobil", "moder", "modern", "mom", "moment", "momentâ€", "money", "monroy", "montgomeri", "month", "moon", "moonshot", "moral", "morn", "mortgag", "moscow", "mosqu", "mother", "motiv", "motor", "motorcycl", "mourn", "move", "movement", "movi", "murder", "muslim", "muster", "musthav", "myiâ€", "myra", "nafta", "naiv", "name", "narrow", "nasa", "nationbuild", "nationwid", "nativ", "nato", "natur", "navi", "near", "necess", "need", "needless", "neglect", "negoti", "neighbor", "neighborhood", "neil", "nest", "network", "newest", "newlyw", "news", "newtown", "nextgener", "nice", "nicetohav", "nick", "night", "ninetyfour", "noaa", "nois", "nomin", "nonessenti", "nonmilitari", "nonprofit", "nonprolifer", "north", "notion", "notr", "novemb", "nuclear", "nucleararm", "number", "numberon", "nurs", "nurtur", "oath", "obamacar", "obes", "oblig", "obtain", "occupi", "occur", "ocean", "octob", "odd", "offend", "offens", "offer", "offic", "offici", "offshor", "ohio", "oil", "older", "oliv", "olymp", "omaha", "onefourth", "onethird", "onlin", "onthejob", "open", "openend", "oper", "oppon", "opportun", "oppos", "opposit", "optim", "optimist", "option", "orbit", "order", "ordinari", "organ", "orient", "outcom", "outdat", "outlin", "outsourc", "outstand", "outward", "overcam", "overcom", "overjoy", "overnight", "overrid", "oversea", "overthetop", "overtim", "overwhelm", "owe", "owen", "owner", "pace", "pacificâ€", "packag", "page", "paid", "pain", "pakistan", "palestinian", "pandem", "panel", "paper", "paperthin", "parent", "pari", "part", "parti", "particip", "partier", "partisan", "partisanship", "partner", "partnersâ€", "partnership", "pass", "passag", "passion", "past", "pastor", "patent", "path", "patient", "patrol", "pattern", "paul", "pay", "paycheck", "payment", "peac", "peddl", "pedro", "pen", "penc", "pension", "pentagon", "peopl", "percent", "perfect", "perform", "peril", "period", "perman", "permit", "perpetr", "persecut", "persist", "person", "philadelphia", "philanthropist", "philippin", "phoni", "physic", "physician", "pick", "pickup", "pictur", "pillar", "pipelin", "pizza", "place", "plagu", "plain", "plan", "planet", "plant", "platform", "play", "playbook", "plea", "pledg", "plenti", "plentyâ€", "plot", "pocket", "point", "poison", "polic", "policeman", "polici", "polio", "polit", "politician", "politicsâ€", "poll", "pollut", "pomp", "poorâ€", "poorest", "pope", "popul", "port", "pos", "pose", "posit", "possess", "possibl", "post", "pot", "potenti", "pound", "pour", "poverti", "power", "powerâ€", "practic", "pray", "precious", "precis", "predatori", "preexist", "prefer", "pregnanc", "prek", "premium", "prepar", "prescript", "presenc", "present", "preserveâ€", "presid", "press", "pressur", "pretti", "prevent", "prey", "price", "pride", "primarili", "prime", "princip", "principl", "prior", "prioriti", "prison", "pristin", "privaci", "privat", "problem", "procedur", "process", "processâ€", "produc", "product", "productionâ€", "profit", "profound", "program", "programâ€", "progress", "prohibit", "project", "promis", "promot", "proof", "prop", "propaganda", "propel", "proper", "propos", "prosper", "prosthet", "protect", "protest", "proud", "prouder", "prove", "proven", "provid", "prudent", "public", "pull", "pump", "punch", "pundit", "punish", "purchas", "pure", "purpos", "pursu", "push", "put", "putin", "qaida", "quagmir", "qualiti", "quarter", "quarterback", "question", "quick", "quiet", "quit", "quo", "quoteâ€", "race", "radic", "rage", "raid", "railway", "rais", "raleigh", "ralli", "ran", "rancor", "ranger", "rapid", "rare", "rash", "rate", "ration", "ravag", "reach", "react", "reactiv", "read", "readi", "readytobefil", "readytowork", "reaffirm", "reagan", "real", "realiti", "realworld", "reason", "reassur", "rebekah", "rebellion", "rebirth", "rebound", "rebuild", "rebuilt", "recaptur", "receiv", "recent", "recess", "recip", "recipi", "reckless", "reclaim", "recogn", "recognit", "recommend", "reconfirm", "record", "recordâ€", "recov", "recoveri", "recruit", "red", "redesign", "redtap", "reduc", "reenerg", "refer", "refight", "reflect", "reform", "refuge", "refus", "regard", "region", "regret", "regul", "rehab", "reignit", "reinforc", "reinvent", "reject", "rejoin", "relat", "relationship", "releas", "relent", "relentless", "reli", "relianc", "relief", "reliev", "religi", "religion", "remain", "remak", "remark", "rememb", "remind", "remington", "remnant", "remot", "remov", "remsburg", "renew", "repeal", "repeat", "replac", "report", "repres", "republican", "request", "requir", "rescu", "research", "resent", "reserv", "reshap", "resili", "resolut", "resolv", "resort", "resourc", "respect", "respond", "respons", "rest", "restart", "restor", "restraint", "restrict", "result", "resurfac", "retir", "retool", "retrain", "return", "revers", "revolutionari", "reward", "rhetor", "rich", "riddl", "ride", "rig", "right", "rise", "risen", "risk", "road", "roadsid", "roar", "robot", "robust", "rock", "rodriguez", "role", "roll", "romney", "ronald", "rooftop", "roosevelt", "root", "rubio", "ruin", "rule", "run", "rural", "rush", "russia", "russian", "ryan", "sacr", "sacramento", "sacrif", "sacrific", "safe", "safeguard", "safer", "safeti", "sake", "sale", "salli", "salut", "san", "sanction", "sanctuari", "sandi", "sat", "savag", "save", "scalia", "scapegoat", "scholarship", "school", "scienc", "scientif", "scientist", "scientistsâ€", "scope", "score", "scott", "scourg", "screw", "scrimp", "seaboard", "season", "seat", "secret", "secretari", "sector", "secur", "seek", "seeker", "seiz", "selfgovern", "sell", "selma", "senat", "send", "senior", "sens", "separ", "sequest", "sergeant", "seri", "serv", "servic", "set", "settl", "sever", "sexual", "shadow", "shake", "shape", "share", "sharehold", "sharp", "shaw", "shed", "shell", "shelley", "sheriff", "shes", "shield", "shift", "ship", "shoot", "shop", "shore", "short", "shortcom", "shorter", "shot", "shoulder", "shouldnt", "show", "showdown", "shrapnel", "shrink", "shut", "shutdown", "sick", "side", "sidelin", "sight", "sign", "signific", "silenc", "silicon", "simpl", "simpli", "simplifi", "singl", "singleyear", "sister", "sit", "sixti", "size", "skill", "slain", "slam", "slash", "slaughter", "slip", "slot", "slow", "slowli", "small", "smallbusi", "smart", "smarter", "smartphon", "snatch", "social", "societi", "softbank", "solar", "soldier", "solut", "solv", "somalia", "someday", "son", "sophomor", "soranno", "sort", "soul", "sound", "sourc", "south", "southern", "soviet", "space", "spacecraft", "speak", "speaker", "special", "specif", "spectacular", "speech", "speed", "spend", "spent", "spill", "spirit", "splurg", "spoke", "spoken", "spot", "spous", "spread", "spring", "sprint", "sputnik", "squeez", "stabil", "stabl", "stadium", "stage", "stagnant", "stake", "stale", "stall", "stamp", "stand", "standard", "start", "startup", "statement", "statesâ€", "statesnot", "station", "status", "stay", "stcenturi", "steadi", "steadili", "steal", "steel", "step", "stereotyp", "steve", "stifl", "stir", "stock", "stockpil", "stood", "stop", "store", "stori", "straight", "strain", "strateg", "strategi", "streak", "streamlin", "street", "streetâ€", "strength", "strengthen", "stress", "stretch", "stride", "strike", "strive", "strong", "stronger", "strongest", "struggl", "stuck", "student", "studi", "stumbl", "subsid", "succeed", "success", "suffer", "suggest", "sum", "summer", "summit", "summon", "sunlight", "superpow", "superrich", "suppli", "support", "suprem", "sure", "surg", "surgeri", "surpris", "surrend", "surveil", "survey", "survivor", "susan", "suspect", "suspicion", "sustain", "swamp", "sweep", "swift", "switch", "swore", "symbol", "syria", "syrian", "system", "tabl", "tack", "tackl", "take", "talk", "tap", "target", "tariff", "task", "taskâ€", "tatter", "taught", "tax", "taxpay", "taxpayerfund", "tea", "teach", "teacher", "team", "tech", "technolog", "teen", "teenag", "telegraph", "telephon", "tell", "tempt", "ten", "tend", "tennesse", "terribl", "territori", "terror", "terrorismrel", "terrorist", "terroristsâ€", "tesla", "test", "texa", "theater", "theft", "theyll", "theyr", "theyv", "thing", "think", "third", "thoma", "thought", "thousand", "threat", "threaten", "threequart", "thrive", "tide", "tie", "tightknit", "till", "time", "timeâ€", "tip", "tire", "today", "toil", "told", "tom", "tomorrow", "tool", "top", "torch", "tortur", "total", "touch", "tough", "tougher", "town", "tpp", "track", "tractor", "trade", "tradit", "tragedi", "tragic", "train", "trajectori", "transfer", "transform", "transgend", "transit", "translat", "transpacif", "transpar", "transport", "trap", "travel", "treasur", "treasuri", "treat", "treatment", "trend", "tribe", "trigger", "trillion", "tripl", "trivial", "troop", "truck", "trudeau", "true", "trueâ€", "trust", "truth", "tuck", "tucson", "tunisia", "tunnel", "turn", "turnov", "tutor", "twentyfirst", "twist", "twothird", "typewrit", "typhoon", "typic", "tyranni", "tyrant", "ugli", "ukrain", "ultim", "unadulter", "unanim", "unansw", "unarm", "unbound", "unbreak", "unbroken", "unclog", "uncondit", "uncontrol", "undaunt", "undermin", "understand", "undertaken", "underwat", "undo", "unemploy", "unfold", "unifi", "uniform", "unilater", "uninsur", "union", "uniqu", "unit", "uniti", "univers", "unleash", "unlimit", "unnecessari", "unpatriot", "unpreced", "unravel", "unstopp", "unsustain", "untold", "unveil", "updat", "upgrad", "uphold", "upsidedown", "upward", "uranium", "urg", "urgenc", "urgent", "usa", "usama", "usher", "usual", "util", "vacat", "vaccin", "valley", "valu", "valuesâ€", "vandal", "vast", "vehicl", "verdict", "verifi", "verizon", "vet", "veteran", "veto", "vice", "vicious", "victim", "victori", "vietnam", "vigil", "vile", "villag", "violat", "violenc", "violent", "virginia", "virtu", "vision", "visit", "vital", "voic", "volunt", "vote", "voter", "vulner", "wage", "wageâ€", "wait", "walk", "wall", "walmart", "want", "war", "warmest", "warn", "warrior", "wash", "washington", "wasnt", "wast", "watch", "watchdog", "water", "waterway", "wave", "way", "weak", "weaken", "weaker", "wealth", "wealthi", "wealthiest", "wean", "weapon", "wear", "wedg", "week", "weight", "welfar", "wellb", "werent", "west", "western", "what", "wheel", "white", "whos", "wide", "widen", "widow", "wife", "william", "willing", "win", "wind", "wisdom", "wise", "wish", "wit", "withdrawn", "wither", "woman", "women", "won", "wonder", "wont", "word", "work", "worker", "workersâ€", "workforc", "workplac", "world", "worldâ€", "worldclass", "worri", "wors", "worsen", "worst", "worth", "worthi", "wound", "wright", "write", "wrong", "wrote", "yearlong", "yearold", "yemen", "york", "youd", "youll", "young", "younger", "youngest", "youngstown", "your", "youth", "youv"), class = "factor"),  freq = c(7, 15, 1, 4, 12, 1)), .Names = c("word", "freq"), row.names = c("abroad", "access", "accid", "account", "achiev", "acrosstheboard"), class = "data.frame") 

Il ressemble à ceci:

      word freq 
abroad     abroad 7 
access     access 15 
accid     accid 1 
account    account 4 
achiev     achiev 12 
acrosstheboard acrosstheboard 1 

Disons que « à l'étranger », « l'accès », et « ACCID » signifient tous deux la même chose, et je voudrais les combiner ensemble dans « ACCID », de sorte que le résultat df ressemblerait à ceci:

      word freq 
accid     accid 23 
account    account 4 
achiev     achiev 12 
acrosstheboard acrosstheboard 1 

Comment puis-je combiner ces termes dans un Matrice de termes de document?

Il semble que cela devrait être possible avec le paquet tm, mais je ne trouve aucune source, seulement tm_combine qui combine corpa, pas des termes.

+1

Tu ne peux pas les remplacer dans la étape de préparation? Par exemple, utilisez 'gsub()' et remplacez "foreign" et "access" par "access"? Si vous créez votre dtm par la suite, vous aurez le résultat que vous visiez. –

+0

Oh, tellement comme dans les documents, faire comme une force brute regex remplacer? Est-ce la façon standard de le faire? –

+1

C'est comme ça que je le ferais, mais je ne suis pas sûr que ce soit une qualification pour 'standard' ... La vitesse de regex m'a surpris plusieurs fois, donc je ne m'inquiéterais pas trop à ce sujet –

Répondre

1

Je remplacerais ces mots dans les étapes de prétraitement. Je devine que vous êtes quelque chose de pré-traitement le long des lignes de:

library(tm) 
corpus <- Corpus(VectorSource(text_infos$my_docs)) 
corpus <- tm_map(corpus, tolower) 
corpus <- tm_map(corpus, removePunctuation) 
corpus <- tm_map(corpus, removeNumbers) 
corpus <- tm_map(corpus, removeWords, stopwords(kind="en")) 

Vous pouvez définir votre propre fonction qui remplace les mots, puis l'utiliser dans tm_map():

replaceWords <- function(x, from, keep){ 
    regex_pat <- paste(from, collapse = "|") 
    gsub(regex_pat, keep, x) 
} 

oldwords <- c("work", "job", "economi", "busi") 
newword <- c("economy") 

corpus <- tm_map(corpus, replaceWords, from=oldwords, keep=newword) 
+0

Voilà comment j'ai pour travailler: 'corpus <- tm_map (docs, replaceWords, de =" travail | travail | ecomomi ", garder =" économie ")' –

+0

Cela ne fonctionne pas avec le code fourni dans la réponse? –

+0

Ah, maintenant je vois votre montage. Laisse-moi essayer ça. –