J'utilise le paquet quanteda de Ken Benoit et Paul Nulty pour travailler avec des données textuelles.Identifier des noms en utilisant des corpus Quanteda
Mon corpus contient des textes avec des phrases complètes en allemand et je souhaite travailler uniquement avec les noms de tous les textes. Un truc en allemand est d'utiliser uniquement les mots en majuscules, mais cela échouerait au début d'une phrase.
Text1 <- c("Halle an der Saale ist die grünste Stadt Deutschlands")
Text2 <- c("In Hamburg regnet es immer, das ist also so wie in London.")
Text3 <- c("James Bond trinkt am liebsten Martini")
myCorpus <- corpus(c(Text1, Text2, Text3))
metadoc(myCorpus, "language") <- "german"
summary(myCorpus, showmeta = T)
myDfm <- dfm(myCorpus, tolower = F, remove_numbers = T,
remove = stopwords("german"), remove_punct = TRUE,
remove_separators = T)
topfeatures(myDfm, 20)
De cet exemple minimal, je voudrais récupérer: "Halle", "Saale", "Stadt", "Deutschland", "Hamburg", "Londres", "Martini", "James" , "Bond". Je suppose que j'ai besoin d'un dictionnaire, qui définit les verbes/noms/etc. et les noms propres (James Bond, Hambourg etc.), ou y a-t-il une fonction de construction/dict?
Bonus Question: La solution fonctionne-t-elle aussi pour les textes en anglais?
incroyable, merci beaucoup Ken! – CFM