Nous gardons une trace des chaînes d'agent utilisateur dans notre site Web. Je veux faire quelques statistiques sur eux, pour voir combien d'utilisateurs IE6 nous avons (donc nous savons ce que nous devons développer par rapport), et aussi combien d'utilisateurs mobiles nous avons.auto-tokenize chaînes d'agents utilisateur pour les statistiques?
Nous avons donc connecter entires comme ceci:
Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; FunWebProducts)
Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; FunWebProducts; .NET CLR 1.0.3705; .NET CLR 1.1.4322; Media Center PC 4.0; .NET CLR 2.0.50727)
Et idéalement, il serait assez impressionnant de voir toutes les chaînes « significatives », qui simplement signifier des chaînes probablement plus d'une certaine longueur. Par exemple, je voudrais voir combien d'entrées ont FunWebProducts
, ou .NET CLR
, ou .NET CLR 1.0.3705
- mais ne veulent pas veulent voir combien ont un point-virgule. Je ne recherche donc pas forcément des chaînes uniques, mais toutes les chaînes, même les sous-ensembles. Donc, je voudrais voir le nombre de tous Mozilla
, sachant que cela comprend les chiffres pour Mozilla/5.0
et Mozilla/4.0
. Ce serait bien s'il y avait un affichage imbriqué pour cela, en commençant par les chaînes les plus courtes, et en descendant. Quelque chose peut-être comme
4,2093 Mozilla
1,093 Mozilla/5.0
468 Mozilla/5.0 (Windows;
47 Mozilla/5.0 (Windows; U
2,398 Mozilla/4.0
Cela ressemble à un devoir de science informatique. Comment serait-ce appelé? Est-ce que quelque chose comme ça existe là-bas, ou est-ce que j'écris le mien?
Le marquage par un point-virgule ne le fera pas; J'ai des chaînes comme 'Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_5_8; fr-fr) AppleWebKit/531.9 (KHTML, comme Gecko) Version/4.0.3 Safari/531.9' – user151841