BTW, vous devez spécifier la langue (anglais, arabe ...) dans laquelle vous souhaitez construire cet ensemble de données, car cela affecte à la fois la sélection des sources de livres et les utilitaires de conversion.
sources de contenu de données Identifiying:
Fait intéressant, et pour tous les [interactifs] en ligne Hadith Recherche outils comme celui sur le
CRCC's Compendium of Muslim Texts le site (original de MSA West, mais en quelque sorte ABSENT/travail à Site MSA plus), il ne semble pas y avoir de téléchargeable version des bases de données sous-jacentes!
Il existe plusieurs versions en ligne des livres eux-mêmes, en particulier les plus populaires que vous mentionnez, mais vous devrez ensuite les analyser et les indexer correctement afin de conserver les références, etc. Aussi, en revenant aux livres, vous avoir à les rapporter vous-même.
En ce qui concerne la conversion des fichiers CHM ...
Il n'y a pas open source ou d'un programme freeware que je suis au courant, mais le shareware ABC Amber CHM converter (c. 25,00 $) semble être la norme d'or à cette fin.
Il y a seulement quelques années, je ne connaissais le logiciel que de façon passagère, pour un travail de conversion ponctuel semblable à celui que vous envisagez. Le convertisseur Amber "a fait l'affaire"; Heureusement, la structure sous-jacente des pages d'aide a révélé beaucoup de régularité, ce qui a permis une tabulation relativement simple dans les champs CSV/base de données.
Le convertisseur ABC Amber prend en charge de nombreuses langues, y compris l'arabe (mais je l'ai utilisé uniquement en anglais).
lol @ proches électeurs. Vous cherchez une excuse pour essayer "trop localisé"? – xyz
Avez-vous trouvé quelque chose de similaire pour KU'AN a.z. Je veux faire la traduction de XML Kur'an en bosniaque – adopilot
Non, je n'ai pas cherché le Coran. En fait, je fais une application facebook pour poster au hasard un hadith sur le mur des utilisateurs. donc juste besoin d'eux pour remplir la base de données, je suppose que je dois aller avec la procédure @mjv et ensuite utiliser des expressions régulières sur les fichiers pour créer ma propre base de données –