Je cherche un outil capable de répondre a mes besoins et je me demande si Maarch est capable de :
Récupérer des documents ( Pdf, mails )
De les « lire » avec un OCR ( tesseract dans ce cas )
De les « indexer » a l’aide des mots lu par l’OCR
De faire des recherches sur des mots clés sur l’ensemble des documents.
Maarch RM permet de faire tout cela avec un peu d’intégration:
capture de fichiers et de mails avec Maarch Capture
OCR Tesseract et indexation possibles depuis la 2.8 - tâche planifiée, demande lors du dépôt web service, connecteur Tesseract - nous livrons par défaut avec Apache Tika pour extraire et indexer les fichiers PDF et bureautique notamment