Il existe des millions d'enregistrements dans le tableau. Et j'ai besoin de calculer le nombre de lignes dupliquées présentes dans ma table dans Redshift. Je pourrais y parvenir en utilisant la requête ci-dessous,Quel est le moyen le plus rapide de calculer le nombre de lignes dupliquées présentes dans Redshift Table
select
sum(cnt) from (select <primary_key>
, count(*)-1 as cnt
from
table_name
group by
<primary_key> having count(*)>1
- Y at-il un moyen plus rapide pour atteindre le même?
- Existe-t-il un moyen de réaliser ceci dans une requête unique sans utiliser la sous-requête?
Merci.
Comment définissez-vous les "lignes dupliquées"? Toutes les colonnes doivent-elles être en double ou existe-t-il une colonne contenant une clé unique permettant d'identifier un doublon plus facilement? –