Suite à cet article de wikipedia SQL join Je voulais avoir une vue claire sur la façon dont nous pourrions avoir des jointures avec data.table. Dans le processus, nous avons peut-être découvert un bug en rejoignant NAs. Prenant l'exemple de wiki:data.table jointure interne/externe avec NA dans la colonne de jointure de type bug double?
R) X = data.table(name=c("Raf","Jon","Ste","Rob","Smi","Joh"),depID=c(31,33,33,34,34,NA),key="depID")
R) Y = data.table(depID=c(31,33,34,35),depName=c("Sal","Eng","Cle","Mar"),key="depID")
R) X
name depID
1: Joh NA
2: Raf 31
3: Jon 33
4: Ste 33
5: Rob 34
6: Smi 34
R) Y
depID depName
1: 31 Sal
2: 33 Eng
3: 34 Cle
4: 35 Mar
LEFT OUTER JOIN
R) merge.data.frame(X,Y,all.x=TRUE)
depID name depName
1 31 Raf Sal
2 33 Jon Eng
3 33 Ste Eng
4 34 Rob Cle
5 34 Smi Cle
6 NA Joh <NA>
merge.data.table
ne produisent pas le même résultat et montrer ce que je pense est un bug sur lign 2.
R) merge(X,Y,all.x=TRUE)
depID name depName
1: NA Joh Eng
2: 31 Raf NA
3: 33 Jon Eng
4: 33 Ste Eng
5: 34 Rob Cle
6: 34 Smi Cle
R) Y[X] #same -> :(
depID depName name
1: NA Eng Joh
2: 31 NA Raf
3: 33 Eng Jon
4: 33 Eng Ste
5: 34 Cle Rob
6: 34 Cle Smi
RIGHT OUTER JOIN On dirait même
R) merge.data.frame(X,Y,all.y=TRUE)
depID name depName
1 31 Raf Sal
2 33 Jon Eng
3 33 Ste Eng
4 34 Rob Cle
5 34 Smi Cle
6 35 <NA> Mar
R) merge(X,Y,all.y=TRUE)
depID name depName
1: NA Joh Eng
2: 31 NA Sal
3: 33 Jon Eng
4: 33 Ste Eng
5: 34 Rob Cle
6: 34 Smi Cle
7: 35 NA Mar
INNER (NATUREL) REJOIGNEZ
R) merge.data.frame(X,Y)
depID name depName
1 31 Raf Sal
2 33 Jon Eng
3 33 Ste Eng
4 34 Rob Cle
5 34 Smi Cle
R) merge(X,Y)
depID name depName
1: NA Joh Eng
2: 33 Jon Eng
3: 33 Ste Eng
4: 34 Rob Cle
5: 34 Smi Cle
Comme il a été signalé dans un précédent, réponse supprimé (qui était vraiment un commentaire), la fusion fonctionne correctement si les colonnes depID sont des entiers. –
@MatthewLundberg Intéressant, merci pour cela. Pourquoi a-t-il été supprimé, semble utile! Cela expliquerait pourquoi les tests ne l'ont pas attrapé - je n'aurais probablement pensé qu'à tester NA avec des entiers pensant que NA comme double ne ferait pas de différence. –
Je ne peux pas répondre à cela, mais je ne savais pas si vous essaieriez la fusion avec des entiers sans l'indice. Le répondant a affirmé que le personnage a aussi travaillé, mais je n'ai pas vérifié. –