J'ai 30 000 lignes dans une base de données qui doivent être vérifiés de similarité (en utilisant similar_text
ou une autre telle fonction). Pour ce faire, il faudra effectuer 30 000^2 vérifications pour chaque colonne. Pour cela, il faudra effectuer 30 000^2 vérifications pour chaque colonne.Haute performance PHP simaliraty vérification sur grande base de données
J'estime que je vais vérifier en moyenne 4 colonnes.
Cela signifie que je devrai faire 3 600 000 000 chèques. Quel est le meilleur moyen (le plus rapide et le plus fiable) de faire cela avec PHP, en gardant à l'esprit les limites de mémoire et les délais, etc?
Le serveur doit toujours servir les pages Web en même temps.
PS. Le serveur que nous utilisons est un bélier Xeon 32 Go à 8 cœurs.
Edit:
La taille de chaque colonne est normalement inférieure à 50 caractères.
Je ne cherche pas vraiment, j'ai besoin de voir si 1 colonne de données est plus de 90% similaire à toute autre colonne de données. – Petah
Avez-vous besoin de comparer chaque colonne avec tout le reste? Ou vous avez seulement 1 chaîne de 1 colonne que vous devez comparer avec les autres? – dynamic
La colonne de chaque ligne est comparée à la colonne de chaque autre ligne. – Petah