Étant donné un dataframe:Comment obtenir le produit cartésien d'une trame de données de pandas géants sous certaines conditions
qid cid title
0 1 a croc
1 2 b dog
2 3 a fish
3 4 b cat
4 5 a bird
Je veux obtenir une nouvelle trame de données qui est le produit cartésien de chaque rangée avec l'autre rangée qui a la même valeur cid comme (c'est d'obtenir toutes les paires de lignes avec le même cid):
cid1 cid2 qid1 title1 qid2 title2
0 a a 1 croc 3 fish
1 a a 1 croc 5 bird
2 a a 3 fish 5 bird
3 b b 2 dog 4 cat
mon jeu de données est Supposons à propos 500M, quelqu'un peut-il résoudre ce problème d'une manière relativement efficace?
thats va générer beaucoup de données. Bien que ce soit une belle réponse +1 – Dark