J'ai une instance extraite d'une dataframe df1 et je veux vérifier si cette instance se trouve dans une autre dataframe df2 dans Pyspark. Y a-t-il un moyen d'y faire face?Comment puis-je vérifier si une instance se trouve dans une image dans Pyspark?
Par exemple:
Instance:
+------+------+------+
| Atr1 | Atr2 | Atr3 |
+------+------+------+
| 'A' | 2 | 'B' |
+------+------+------+
dataframe:
+------+------+------+
| Atr1 | Atr2 | Atr3 |
+------+------+------+
| 'C' | 1 | 'B' |
+------+------+------+
| 'D' | 2 | 'A' |
+------+------+------+
| 'E' | 2 | 'C' |
+------+------+------+
| 'A' | 2 | 'B' |
+------+------+------+
De cette façon, je veux obtenir vrai parce que l'instance est dans la trame de données (4ème ligne).
Merci.
Je ne sais pas si j'ai bien compris votre question, mais cherchez-vous quelque chose comme ['except'] (https://spark.apache.org/docs/latest/api/java/org/apache/ spark/sql/Dataset.html # except-org.apache.spark.sql.Dataset-)? – philantrovert
Je cherche quelque chose de contraire à except. Je veux dire, quelque chose qui me dit si une instance est dans une base de données. Je vais éditer ma question pour mieux comprendre. – jartymcfly
Avez-vous essayé 'instance.except (df) .take (1) .isEmpty'? – philantrovert