La mise en place de l'OCR avec Gespage, suppose l'utilisation d'un logiciel tierce qui se nomme tesseract.
Nous utiliserons la version suivante de ce logiciel: tesseract-ocr-w64-setup-v5.0.0.20211201.exe
La procédure se compose de trois actions:
- Installation de Tessract
- Configuration du flux de traitement
- Ajout du flux de traitement dans le profil de scan
- Installation de Tesseract
La première étape consiste donc à installer Tesseract.
Il s'agit d'un exécutable classique, il suffit donc de suivre les étapes pas à pas:
Par défaut, Tesseract installe uniquement la langue anglaise pour la reconnaissance de caractère.
Il faut donc ajouter des paquets d'installation additionnels pour ajouter la langue Française:
Je conseil également de laisser le répertoire par défaut pour l'installation.
Tesseract est désormais installé, nous pouvons désormais passer à l'étape suivante.
- Création du flux de traitement
Une fois Tesseract installé, nous pouvons désormais créer le flux de traitement OCR qui pourras être utiliser dans votre profil de scan Gespage.
La création du profil est réalisé dans le menu Document / Scan avancé / Flux de Traitement / OCR :
Vous devrez alors configurer le traitement à réaliser:
Vous devrez indiquer un nom à votre profil.
L'interpréteur OCR n'est pour le moment pas configurable, il sera obligatoirement paramétré sur Tesseract.
Vous avec la possibilité de choisir le format du fichier de sortie parmi les choix suivant:
En ce qui concerne les langues d'interprétations, si les étapes suivantes ont bien été suivis, vous devrez renseigner eng+fra
Pour le dernier paramètre, cela concerne le dossier d'installation.
Si Tesseract est installé dans le répertoire par défaut, il est possible de laisser ce champ vide.
- Ajout du flux de traitement dans le profil de scan
Une fois validé, ce flux de traitement peut être ajouter à vos profils de scan, depuis le menu Document / Scan avancé / Profils de scan / Liste des scans avancés:
Il ne vous reste alors qu'a sélectionne votre profil, puis ajouter le flux de traitement précédemment créé: