S'il vous plaît aidez-moi à comprendre comment les caractères multi-octets comme les emoji sont gérés dans les champs MySQL utf8mb4.Comment puis-je effectuer une recherche par emoji dans MySQL en utilisant utf8mb4?
Voir ci-dessous pour un test SQL simple pour illustrer les défis.
/* Clear Previous Test */
DROP TABLE IF EXISTS `emoji_test`;
DROP TABLE IF EXISTS `emoji_test_with_unique_key`;
/* Build Schema */
CREATE TABLE `emoji_test` (
`id` int(11) NOT NULL AUTO_INCREMENT,
`string` varchar(191) CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci NOT NULL DEFAULT '',
`status` tinyint(1) NOT NULL DEFAULT '1',
PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4;
CREATE TABLE `emoji_test_with_unique_key` (
`id` int(11) NOT NULL AUTO_INCREMENT,
`string` varchar(191) CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci NOT NULL DEFAULT '',
`status` tinyint(1) NOT NULL DEFAULT '1',
PRIMARY KEY (`id`),
UNIQUE KEY `idx_string_status` (`string`,`status`) USING BTREE
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4;
/* INSERT data */
# Expected Result is successful insert for each of these.
# However some fail. See comments.
INSERT INTO emoji_test (`string`, `status`) VALUES ('', 1); # SUCCESS
INSERT INTO emoji_test (`string`, `status`) VALUES ('', 1); # SUCCESS
INSERT INTO emoji_test (`string`, `status`) VALUES ('', 1); # SUCCESS
INSERT INTO emoji_test (`string`, `status`) VALUES ('', 1); # SUCCESS
INSERT INTO emoji_test_with_unique_key (`string`, `status`) VALUES ('', 1); # SUCCESS
INSERT INTO emoji_test_with_unique_key (`string`, `status`) VALUES ('', 1); # FAIL: Duplicate entry '?-1' for key 'idx_string_status'
INSERT INTO emoji_test_with_unique_key (`string`, `status`) VALUES ('', 1); # SUCCESS
INSERT INTO emoji_test_with_unique_key (`string`, `status`) VALUES ('', 1); # FAIL: Duplicate entry '??-1' for key 'idx_string_status'
/* Test data */
/* Simple Table */
SELECT * FROM emoji_test WHERE `string` IN ('','','',''); # SUCCESS (all 4 are found)
SELECT * FROM emoji_test WHERE `string` IN (''); # FAIL: Returns both and
SELECT * FROM emoji_test WHERE `string` IN (''); # FAIL: Returns both and
SELECT * FROM emoji_test; # SUCCESS (all 4 are found)
/* Table with Unique Key */
SELECT * FROM emoji_test_with_unique_key WHERE `string` IN ('','','',''); # FAIL: Only 2 are found (due to insert errors above)
SELECT * FROM emoji_test_with_unique_key WHERE `string` IN (''); # SUCCESS
SELECT * FROM emoji_test_with_unique_key WHERE `string` IN (''); # FAIL: found instead of
SELECT * FROM emoji_test_with_unique_key; # FAIL: Only 2 records found (and)
Je suis intéressé à apprendre ce qui cause les FAIL
s ci-dessus et comment je peux contourner ce problème.
Plus précisément:
- Pourquoi choisit pour un résultat de retour de caractères multi-octets pour tout caractères multi-octets?
- Comment puis-je configurer un index pour gérer les caractères multi-octets au lieu de
?
? - Pouvez-vous recommander des modifications au deuxième
CREATE TABLE
(celui avec une clé unique) ci-dessus de manière à ce que toutes les requêtes de test reviennent avec succès?
Comme tout mexicain peut vous le dire, (['TACO' (U + 1F32E)] (http://www.fileformat.info/info/unicode/char/1f32e/index.htm)) et (['HOT PEPPER '(U + 1F336)] (http://www.fileformat.info/info/unicode/char/1f336/index.htm)) sont clairement liés mais différents. Ce doit être la question la plus merveilleusement composée en années. –
En relation: http://stackoverflow.com/questions/38116984/finding-values-case-insensitively-with-emojis: * La solution est d'utiliser MySQL 5.6+ et d'utiliser le collationnement utf8mb4_unicode_520_ci qui ne traite pas tous les caractères de 4 octets comme equal * - Une bonne raison d'éviter les emojis comme mots de passe :) –
@ ÁlvaroGonzález Bien, si c'est un problème pour les mots de passe, alors il y a un plus gros problème avec l'installation donnée, parce que les mots de passe doivent être stockés. Et pour le hashing, ça ne devrait pas être un problème. Mais je ne suggère pas non plus de les utiliser pour les mots de passe. –