2017-09-21 4 views
1

J'expérimente avec le package stringdist afin de faire des jointures floues et je rencontre un problème que je ne comprends pas et ne trouve pas de réponse. Je veux joindre ces 2 tables de données avec la méthode "dl" et cela produit un NA, que je ne comprends pas du tout. Peut-être que l'un d'entre vous a une explication à cela. Le code:stringdist_join résultats dans NAs

library(fuzzyjoin) 
test1<-as.data.frame(test1<-c("techniker")) 
test2<-as.data.frame(test2<-c("technician")) 
setnames(test2,1,"label") 
setnames(test1,1,"label") 
x <- stringdist_join(test1, test2, by = "label", mode = "left", distance_col="distance", method="dl") 

si j'utilise la méthode de Jaccard cependant, il y a un match:

y <- stringdist_join(test1, test2, by = "label", mode = "left", distance_col="distance", method="jaccard", q=4) 

quelqu'un Hope peut clarifier.

Vive Dome

Répondre

0

max_dist est réglé à 2 par défaut.

La distance entre dl"tekniker" et "technician" est plus 2.

donc il n'y a pas de match.

stringdist_join(test1, test2, by = "label", mode = "left", distance_col="distance", method="dl",max_dist=5) 
#  label.x label.y distance 
# 1 techniker techni  3