J'ai un fichier txt d'entrée qui a des données sous la forme d'enregistrements (chaque ligne est un enregistrement et représente plus ou moins comme une table DB) et Je dois trouver des valeurs en double. Par exemple:Comment rechercher des valeurs dupliquées dans un énorme fichier texte ayant environ un demi million d'enregistrements
Rec1: ACCOUNT_NBR_1*NAME_1*VALUE_1
Rec2: ACCOUNT_NBR_2*NAME_2*VALUE_2
Rec3: ACCOUNT_NBR_1*NAME_3*VALUE_3
Dans l'ensemble ci-dessus, la Rec1 et Rec2 sont considérés comme des doublons comme les numéros de compte sont les mêmes (ACCOUNT_NBR1). Remarque: Le fichier d'entrée présenté ci-dessus est un fichier de type délimiteur (le délimiteur étant *). Toutefois, le type de fichier peut également être un fichier de longueur fixe dans lequel chaque colonne commence et se termine avec des positions spécifiées.
Je suis en train de faire cela avec la logique suivante:
Loop thru each ACCOUNT NUMBER
Loop thru each line of the txt file and record and check if this is repeated.
If repeated record the same in a hashtable.
End
End
Je me sers « modèle » & « BufferedReader » API Java pour exécuter la tâche ci-dessus.
Mais comme cela prend du temps, j'aimerais savoir comment le manipuler.
Merci, Shibu
Merci V, Je étais beaucoup préoccupé par l'utilisation de la mémoire à l'approche ci-dessus, Comme vous le dites, le HashMap avec 500K enregistrements (valeur int) tiendra dans quelques MB de mémoire, ira de l'avant avec cette approche. – Shibu