gscan2pdf

Ceci est une ancienne révision du document !

Gutsy, Hardy, scanner, graphisme, ocr, pdf, brouillon

gscan2pdf est une interface graphique permettant initialement de réaliser des fichiers PDF de plusieurs pages à partir d'un scanneur (ou par importation d'images déjà numérisées) ; gscan2pdf est fonctionnel sur presque n'importe quelle machine Linux/BSD… et notamment sous Ubuntu.

Le scanneur est contrôlé avec SANE par l'intermédiaire de scanimage. La conversion au format PDF est faite par PDF::API2. L'exportation au format TIFF est conduite par libtiff.

Dans sa version 0.9.13 (disponible pour Gutsy), gscan2pdf permet d'enregistrer aux formats PDF, DjVu, GIF, JPEG, PNG, PNM et TIFF (la possibilité d'enregistrement au format PS a été ajoutée dans les versions plus récentes, notamment la version 0.9.21, disponible sous Hardy).

gscan2pdf permet aussi de réaliser de la ROC (reconnaissance optique de caractères) en utilisant au choix les moteurs de ROC tesseract ou GOCR (le premier donnant actuellement de meilleurs résultats). Ainsi, gscan2pdf peut servir d'interface graphique pour la ROC avec Tesseract.

Pour utiliser gscan2pdf pour réaliser de la ROC, il faut installer tesseract avec ses modules de langue et éventuellement gocr (si on veut comparer !)

Jusqu'à la version 0.9.19 de gscan2pdf (la manipulation n'est plus nécessaire à partir de la version 0.9.20) : lorsque les modules de langues de tesseract-ocr ont été installés, pour qu'ils soient fonctionnels avec gscan2pdf sous Gutsy, une petite manipulation complémentaire est nécessaire :

créer un dossier /tesseract-ocr dans /usr/share/ :

sudo mkdir /usr/share/tesseract-ocr

et créer un lien symbolique de /usr/local/share/tessdata/ dans /usr/share/tesseract-ocr/

sudo ln -s /usr/local/share/tessdata/ /usr/share/tesseract-ocr/

Sous Hardy, une petite manip similaire semble nécessaire dans certains cas (selon le mode d'installation de tesseract) :

sudo mkdir /usr/share/tesseract-ocr
sudo ln -s /usr/share/tessdata/ /usr/share/tesseract-ocr/

Installez les paquets gscan2pdf, djvulibre-bin, unpaper et sane.

La version de gscan2pdf disponible dans les dépôts Gutsy est la 0.9.13. On peut installer une version plus récente (0.9.23 depuis le 5 mars 2008) par :

wget http://downloads.sourceforge.net/gscan2pdf/gscan2pdf_0.9.23_all.deb
sudo dpkg --unpack gscan2pdf_0.9.23_all.deb
sudo apt-get install -f

Depuis le 13 mai 2008, la version gscan2pdf_0.9.24 est disponible, mais elle ne peut être installée comme indiquée ci-dessus, à cause de deux nouvelles dépendances qui ne sont pas disponibles dans les dépôts Hardy (gtkimageview et libgtk2-imageview-perl.). Elles sont disponibles dans les dépôts de Jeffrey Ratcliffe, développeur de gscan2pdf.

Pour ceux qui veulent suivre au plus près les évolutions de gscan2pdf, le plus simple est d'ajouter ces dépôts dans /etc/apt/sources.list :

deb http://ppa.launchpad.net/jeffreyratcliffe/ubuntu hardy main

deb-src http://ppa.launchpad.net/jeffreyratcliffe/ubuntu hardy main

(on peut aussi installer "à la main" les deux dépendances gtkimageview and libgtk2-imageview-perl en les récupérant ici mais c'est plus compliqué !)

L'interface graphique est en français. Il est donc aisé de découvrir les diverses possibilités offertes par gscan2pdf.

Pour la ROC avec tesseract

il est possible de réaliser directement la ROC sur le document scanné : Menu "Fichier –> Scanner", puis, dans l'onglet "Page Options", cocher la case "Effectuer la reconnaissance optique de caractères sur les pages scannées", sélectionner "Tesseract" comme moteur de reconnaissance optique de caractères et sélectionner la langue qui sera utilisée pour le post-traitement de la ROC. Dans l'onglet "Scan Options", il faut chercher les options permettant d'obtenir le meilleur résultat de ROC en fonction de votre document. Pour du texte imprimé en noir et blanc avec des polices de 10 à 12, le mode "Noir et blanc" associé à une résolution de 300 ppi semble convenir.

on peut aussi réaliser de la ROC sur des fichiers déjà enregistrés au format TIFF (TIF), PNG, JPEG (JPG), ou image PDF… Pour cela : Menu "Fichier –> Importer", sélectionner le fichier et valider. Bien que tesseract ne puisse opérer directement que sur des fichiers au format TIFF (TIF), gscan2pdf permet de réaliser la reconnaissance optique de caractères avec tesseract sur des fichiers aux formats PNG, JPEG (JPG)… (pour permettre cela, gscan2pdf utilise imagemagick pour convertir temporairement au format TIFF les fichiers ayant d'autres extensions).

Le choix de la langue est très important pour obtenir une ROC de meilleure qualité. Veillez à sélectionner la langue correspondant à votre texte. Les noms des langues sont explicites dans la liste déroulante, sauf une : si vous avez installé tesseract-ocr-deu-f (vieil allemand), il apparait dans la liste seulement par la lettre "f"… à ne pas confondre avec "français", sinon vous aurez des surprises

Le résultat de la ROC apparait dans la zone blanche de la partie inférieure de la fenêtre gscan2pdf. Si rien n'apparait dans cette zone, ou seulement quelques caractères sans rapport avec le texte à reconnaitre, c'est que la ROC n'a pas fonctionné. Cela peut provenir d'une résolution trop faible du document d'origine ou d'une trop mauvaise qualité de ce document. Selon le mode d'installation de tesseract que vous avez utilisé, certains format de fichier ne seront pas ou seront mal reconnus si vous n'utilisez pas au préalable la fonction "unpaper" (outil –> clean up) de gscan2pdf.

Si la ROC est nulle ou de qualité médiocre même après traitement "unpaper" (clean up), on peut obtenir de bons résultats en modifiant au préalable avec Gimp le document à reconnaitre. Exemple pour une image pdf :

–> ouvrir le document pdf original avec gimp. Une fenêtre s'ouvre : "importation depuis un PDF" Mettre une résolution 300 et importer. –> on peut si besoin améliorer l'image, par exemple en augmentant le contraste : "Couleurs –> Luminosité/contraste" et augmenter le contraste de 30… 50… ou plus si besoin. –> puis enregistrer le document au format tif : "Fichier –> Enregistrer sous" –> "sélectionner le type de fichier (selon l'extension)" On sélectionne "Image TIFF….. tif,tiff" On nomme le document (en haut de la fenêtre) et "Enregistrer" (sans aucune compression ou avec compression JPEG… selon votre mode d'installation de tesseract).

avant de lancer la ROC, on peut traiter les fichiers avec unpaper : Menu "outil –> unpaper" [ou "outil –> clean up", selon les versions]. Puis : Menu "Outil –> ROC", sélectionner le moteur de ROC Tesseract et la langue, puis "Démarrer la reconnaissance optique de caractères". Le traitement avec unpaper est destiné à redresser les pages et à enlever des parasites (marges noires, traits…) pouvant perturber la ROC.

Les options sont séparées en deux onglets "Page Options" et "Scan Options" dans la version gscan2pdf 0.9.20. Dans la version 0.9.13, tout est dans la même fenêtre. Il peut exister quelque autre petite différence (comme "Binary" au lieu de "Noir et blanc"), mais globalement les indications ci-dessus valent pour les deux versions.

Page réalisée par : Sorbus avec d'utiles compléments de zarer (19 janvier 2008)

gscan2pdf

Pré-requis

Installation

Utilisation

Pour la ROC avec tesseract

Références