2009-05-03 8 views
1

Je travaille sur une récupération d'informations en plusieurs langues qui prend des requêtes en anglais et recherche des documents en russe. Pour évaluer ce système, il serait bon d'avoir une collection de documents russes à rechercher. Est-ce que quelqu'un sait là-bas une collection de documents que je peux rechercher ou des sites Web à partir de laquelle je peux facilement rassembler un tas de documents russes (en dehors de wikipedia)?Corpus de document russe pour moteur de recherche

Les documents peuvent être à rien si ce serait bien si elles étaient dans un domaine spécifique de la connaissance humaine (CS, l'architecture, l'ingénierie, l'art, l'analyse de la littérature, quelle que soit ...)

+0

Quel est le problème avec wikipedia? – Zifre

Répondre

1

Je ne sais pas si C'est ce que vous cherchez, mais here's a torrent of Russian national standards and laws. Ils sont au format dBase4 et il y a environ 57,3 Go de données.

+0

Je préfère avoir quelque chose qui est en texte brut Unicode et j'ai besoin de 200-10000 documents. –

+0

Si vous utilisez un système * nix, vous pouvez utiliser ceci: http://linux.maruhn.com/sec/dbview.html pour convertir les fichiers dBase dans un autre format. Dans Windows, vous pouvez utiliser ADODB: http://www.freevbcode.com/ShowCode.asp?ID=9055 http://www.vbcode.com/Asp/showsn.asp?theID=12507. De plus, je pense qu'Excel peut lire les fichiers dBase, bien que l'extension .db4 ne soit pas reconnue par défaut. – Calvin

Questions connexes