Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
gscan2pdf [Le 19/09/2022, 20:57]
f2ot
gscan2pdf [Le 19/09/2022, 21:01] (Version actuelle)
f2ot [Pour la ROC avec tesseract]
Ligne 16: Ligne 16:
 gscan2pdf permet d'​enregistrer aux formats PDF, DjVu, GIF, JPEG, PNG, PNM et TIFF (la possibilité d'​enregistrement au format PS a été ajoutée dans les versions plus récentes, notamment la version 0.9.21, disponible depuis Hardy). gscan2pdf permet d'​enregistrer aux formats PDF, DjVu, GIF, JPEG, PNG, PNM et TIFF (la possibilité d'​enregistrement au format PS a été ajoutée dans les versions plus récentes, notamment la version 0.9.21, disponible depuis Hardy).
  
-**gscan2pdf permet aussi de réaliser de la ROC** (reconnaissance optique de caractères) en utilisant au choix les moteurs de ROC [[:​tesseract-ocr|tesseract]] ou [[:​ocr#​gocr|GOCR]] (le premier donnant actuellement de meilleurs résultats). Ainsi, gscan2pdf peut servir d'​interface graphique pour la ROC avec Tesseract. L'​intégration d'​OCRopus pour la ROC sur des documents à mise en page complexe sera faite prochainement dans gscan2pdf (version 0.9.30 sans doute, vers mai-juin 2009).+**gscan2pdf permet aussi de réaliser de la ROC** (reconnaissance optique de caractères) en utilisant au choix les moteurs de ROC [[:​tesseract-ocr|tesseract]] ou [[:​ocr#​gocr|GOCR]] (le premier donnant actuellement de meilleurs résultats). Ainsi, gscan2pdf peut servir d'​interface graphique pour la ROC avec Tesseract. ​
  
    
Ligne 45: Ligne 45:
 <​note>​Le choix de la langue est très important pour obtenir une ROC de meilleure qualité. Veillez à sélectionner la langue correspondant à votre texte. Les noms des langues sont explicites dans la liste déroulante,​ sauf une : si vous avez installé tesseract-ocr-deu-f (vieil allemand), il apparaît dans la liste seulement par la lettre "​**f**"​... à ne pas confondre avec "​**français**",​ sinon  vous aurez des surprises ;​-)</​note>​ <​note>​Le choix de la langue est très important pour obtenir une ROC de meilleure qualité. Veillez à sélectionner la langue correspondant à votre texte. Les noms des langues sont explicites dans la liste déroulante,​ sauf une : si vous avez installé tesseract-ocr-deu-f (vieil allemand), il apparaît dans la liste seulement par la lettre "​**f**"​... à ne pas confondre avec "​**français**",​ sinon  vous aurez des surprises ;​-)</​note>​
  
-**Le résultat de la ROC apparaît dans l'​onglet '​Calque du texte' de la fenêtre gscan2pdf.** Pour sauvegarder le résultat, il faut enregistrer l'​image sous un format qui contient les caractères (Texte, PDF...). Si rien n’apparaît dans cette zone, ou seulement quelques caractères sans rapport avec le texte à reconnaître,​ c'est que la ROC n'a pas fonctionné. Cela peut provenir d'une résolution trop faible du document d'​origine ou d'une trop mauvaise qualité de ce document. Selon le mode d'​installation de tesseract que vous avez utilisé, certains formats de fichier ne seront pas ou mal reconnus si vous n'​utilisez pas au préalable la fonction "​unpaper"​ (outil --> nettoyer (clean up)) de gscan2pdf. ​+**Le résultat de la ROC apparaît dans l'​onglet '​Calque du texte' de la fenêtre gscan2pdf. Pour sauvegarder le résultat, il faut enregistrer l'​image sous un format qui contient les caractères (Texte, PDF...). ​**  ​Si rien n’apparaît dans cette zone, ou seulement quelques caractères sans rapport avec le texte à reconnaître,​ c'est que la ROC n'a pas fonctionné. Cela peut provenir d'une résolution trop faible du document d'​origine ou d'une trop mauvaise qualité de ce document. Selon le mode d'​installation de tesseract que vous avez utilisé, certains formats de fichier ne seront pas ou mal reconnus si vous n'​utilisez pas au préalable la fonction "​unpaper"​ (outil --> nettoyer (clean up)) de gscan2pdf. ​
  
 <note tip>S**i la ROC est nulle ou de qualité médiocre même après traitement "​unpaper"​** (= nettoyer = clean up), on peut obtenir de bons résultats en modifiant au préalable avec Gimp le document à reconnaître. Exemple pour une image PDF : <note tip>S**i la ROC est nulle ou de qualité médiocre même après traitement "​unpaper"​** (= nettoyer = clean up), on peut obtenir de bons résultats en modifiant au préalable avec Gimp le document à reconnaître. Exemple pour une image PDF :
  • gscan2pdf.1663613855.txt.gz
  • Dernière modification: Le 19/09/2022, 20:57
  • par f2ot