2008-09-22 7 views
2

J'aimerais pouvoir lire le contenu des documents Office (pour un moteur de balayage personnalisé).Documents de bureau d'analyse

La version de bureau qui doit être lisible est de 2000 à 2007. Je veux principalement explorer les documents Word, Excel et Powerpoint.

Je ne veux pas récupérer le formatage, seulement le texte qu'il contient.

Le moteur de balayage est basé sur lucene.NET si cela peut être utile et qu'il est en C#.

Je l'ai déjà utilisé iTextSharp pour l'analyse syntaxique PDF

Répondre

1

Voici un nice little post on c-charpcorner par Krishnan LN qui donne le code de base pour récupérer le texte d'un document Word en utilisant les assemblages d'interopérabilité primaires Word.

Fondamentalement, vous obtenez la propriété "WholeStory" hors du document Word, collez-le dans le presse-papiers, puis retirez-le du presse-papiers tout en le convertissant au format texte. L'étape du presse-papiers est vraisemblablement faite pour éliminer le formatage.

Pour PowerPoint, vous faites une chose similaire, mais vous devez faire une boucle dans les diapositives, puis pour chaque boucle de diapositives à travers les formes, et récupérer la propriété "TextFrame.TextRange.Text" dans chaque forme. Pour Excel, Excel étant une source de données OleDb, il est plus simple d'utiliser ADO.NET. Voici un good post by Laurent Bugnion qui marche à travers cette technique.

1

Il y a un projet open source excelent POI, seul inconvénient - il est écrit pour Java. Le .net port est en quelque sorte très bêta.

1

Here est une bonne liste de divers outils pour convertir des documents Word en texte brut, que vous pouvez ensuite faire avec.

3

Si vous utilisez déjà Lucene.NET, vous pouvez simplement utiliser les différents IFilters déjà disponibles pour cela. Jetez un oeil au projet open source SeekAFile. Il vous montrera comment utiliser un IFilter pour ouvrir et extraire cette information de tout type de fichier où un IFilter est disponible. Il existe des IFilters pour Word, Excel, Powerpoint, PDf et la plupart des autres types de documents courants.

0

Vous pouvez également envisager de vérifier DtSearch (www.DtSearch.com). Bien qu'il s'agisse avant tout d'un outil de recherche, il permet d'extraire du texte à partir d'un grand nombre de types de fichiers et est considérablement moins cher que d'autres options comme la technologie Oracle/Stellent OutsideIn ou l'équivalent d'Autonomy. J'ai utilisé DtSearch pendant des années et je le trouve indispensable pour ce type de tâche.

Questions connexes