Différences

Ci-dessous, les différences entre deux révisions de la page.

--- gscan2pdf [Le 19/09/2022, 20:57]
f2ot
+++ gscan2pdf [Le 19/09/2022, 21:01] (Version actuelle)
f2ot [Pour la ROC avec tesseract]
@@ Ligne 16: / Ligne 16: @@
 gscan2pdf permet d'enregistrer aux formats PDF, DjVu, GIF, JPEG, PNG, PNM et TIFF (la possibilité d'enregistrement au format PS a été ajoutée dans les versions plus récentes, notamment la version 0.9.21, disponible depuis Hardy).
-**gscan2pdf permet aussi de réaliser de la ROC** (reconnaissance optique de caractères) en utilisant au choix les moteurs de ROC [[:tesseract-ocr|tesseract]] ou [[:ocr#gocr|GOCR]] (le premier donnant actuellement de meilleurs résultats). Ainsi, gscan2pdf peut servir d'interface graphique pour la ROC avec Tesseract. L'intégration d'OCRopus pour la ROC sur des documents à mise en page complexe sera faite prochainement dans gscan2pdf (version 0.9.30 sans doute, vers mai-juin 2009).
+**gscan2pdf permet aussi de réaliser de la ROC** (reconnaissance optique de caractères) en utilisant au choix les moteurs de ROC [[:tesseract-ocr|tesseract]] ou [[:ocr#gocr|GOCR]] (le premier donnant actuellement de meilleurs résultats). Ainsi, gscan2pdf peut servir d'interface graphique pour la ROC avec Tesseract.
@@ Ligne 45: / Ligne 45: @@
 <note>Le choix de la langue est très important pour obtenir une ROC de meilleure qualité. Veillez à sélectionner la langue correspondant à votre texte. Les noms des langues sont explicites dans la liste déroulante, sauf une : si vous avez installé tesseract-ocr-deu-f (vieil allemand), il apparaît dans la liste seulement par la lettre "**f**"... à ne pas confondre avec "**français**", sinon  vous aurez des surprises ;-)</note>
-**Le résultat de la ROC apparaît dans l'onglet 'Calque du texte' de la fenêtre gscan2pdf.** Pour sauvegarder le résultat, il faut enregistrer l'image sous un format qui contient les caractères (Texte, PDF...). Si rien n’apparaît dans cette zone, ou seulement quelques caractères sans rapport avec le texte à reconnaître, c'est que la ROC n'a pas fonctionné. Cela peut provenir d'une résolution trop faible du document d'origine ou d'une trop mauvaise qualité de ce document. Selon le mode d'installation de tesseract que vous avez utilisé, certains formats de fichier ne seront pas ou mal reconnus si vous n'utilisez pas au préalable la fonction "unpaper" (outil --> nettoyer (clean up)) de gscan2pdf.
+**Le résultat de la ROC apparaît dans l'onglet 'Calque du texte' de la fenêtre gscan2pdf. Pour sauvegarder le résultat, il faut enregistrer l'image sous un format qui contient les caractères (Texte, PDF...). **  Si rien n’apparaît dans cette zone, ou seulement quelques caractères sans rapport avec le texte à reconnaître, c'est que la ROC n'a pas fonctionné. Cela peut provenir d'une résolution trop faible du document d'origine ou d'une trop mauvaise qualité de ce document. Selon le mode d'installation de tesseract que vous avez utilisé, certains formats de fichier ne seront pas ou mal reconnus si vous n'utilisez pas au préalable la fonction "unpaper" (outil --> nettoyer (clean up)) de gscan2pdf.
 <note tip>S**i la ROC est nulle ou de qualité médiocre même après traitement "unpaper"** (= nettoyer = clean up), on peut obtenir de bons résultats en modifiant au préalable avec Gimp le document à reconnaître. Exemple pour une image PDF :