J'ai une liste de 120 millions d'enregistrements d'environ 40/50 octets chacun, soit environ 5,5/6 gigaoctets d'espace mémoire brut, sans stockage supplémentaire requis pour conserver tableau en mémoire. Je voudrais m'assurer que cette liste est unique. La façon dont j'ai essayé de le faire est de créer une chaîne <Hashset> et d'y ajouter toutes les entrées une par une. Quand j'ai environ 33 millions d'enregistrements, je n'ai plus assez de mémoire et la création de liste ralentit.Création d'une liste unique à partir d'un jeu de données trop volumineux pour tenir en mémoire
Y a-t-il une meilleure façon de trier cette liste massive d'entrées en temps opportun? La seule solution que je peux penser est d'utiliser une instance extra-large quadruple de mémoire haute mémoire Amazon EC2 pendant une heure.
Merci
Où cet ensemble de données est-il stocké? –