2017-07-07 2 views
0

J'effectuer une analyse de texte sur Mutliple CV pour générer un package à l'aide wordcloudwordcloud avec tm package pour prétraiter le corpus de documents R.vérifier si le mot existe dans le dictionnaire anglais r

Les problèmes i Je fais face sont:

  1. Vérification si le mot dans le corpus a une signification c'est-à-dire. il appartient à dictionnaire anglais.

  2. Comment extraire/traiter plusieurs CV ensemble.

  3. Vérification de la technologie termes tels que r, java, Eclipse, etc.

apprécie l'aide.

+0

Avez-vous essayé d'utiliser un custome 'dictionnaire' et en vérifiant les mots comme termes techniques dans CV – parth

+0

@ParthChaudhary, custom' dictionary' est bon pour les termes 'tech' mais pas fructueux pour vérifier les mots anglais –

Répondre

1

J'ai fait face à quelques problèmes avant, afin de partager des solutions à vos problèmes:

1. Il y a un paquet qdapDictionaries qui est une collection de dictionnaires et des listes de mots à utiliser avec le paquet « qdap ».

library(qdapDictionaries) 

#create custom function 
is.word <- function(x) x %in% GradyAugmented # or use any dataset from package 

#use this function to filter words, df = dataframe from corpus 
df <- df[which(is.word(df$terms)),] 

2. En utilisant VCorpus(DirSource(...)) pour créer votre corpus de répertoire contenant tous les CV

resumeDir <- "path/all_resumes/" 
myCorpus <- VCorpus(DirSource(resumeDir)) 

3. Créez votre fichier dictionnaire personnalisé comme my_dict.csv contenant tech termes.

#read custom dictionary 
tech_dict <- read.csv("path/to/my_dict.csv", stringsAsFactors = FALSE) 
#create tech function 
is.tech <- function(x) x %in% tech_dict 
#filter 
tech_df <- df[which(is.tech(df$terms)),] 

Espérons que cela aide.

+0

what if' tech' les mots sont plus et 'is.word' prend beaucoup de temps dans le calcul? –

+0

pourrait essayer d'utiliser les fonctions de regroupement 'lapply' etc. pour améliorer les performances. – parth