Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
gscan2pdf [Le 19/09/2022, 20:59]
f2ot [gscan2pdf]
gscan2pdf [Le 19/09/2022, 21:01] (Version actuelle)
f2ot [Pour la ROC avec tesseract]
Ligne 45: Ligne 45:
 <​note>​Le choix de la langue est très important pour obtenir une ROC de meilleure qualité. Veillez à sélectionner la langue correspondant à votre texte. Les noms des langues sont explicites dans la liste déroulante,​ sauf une : si vous avez installé tesseract-ocr-deu-f (vieil allemand), il apparaît dans la liste seulement par la lettre "​**f**"​... à ne pas confondre avec "​**français**",​ sinon  vous aurez des surprises ;​-)</​note>​ <​note>​Le choix de la langue est très important pour obtenir une ROC de meilleure qualité. Veillez à sélectionner la langue correspondant à votre texte. Les noms des langues sont explicites dans la liste déroulante,​ sauf une : si vous avez installé tesseract-ocr-deu-f (vieil allemand), il apparaît dans la liste seulement par la lettre "​**f**"​... à ne pas confondre avec "​**français**",​ sinon  vous aurez des surprises ;​-)</​note>​
  
-**Le résultat de la ROC apparaît dans l'​onglet '​Calque du texte' de la fenêtre gscan2pdf.** Pour sauvegarder le résultat, il faut enregistrer l'​image sous un format qui contient les caractères (Texte, PDF...). Si rien n’apparaît dans cette zone, ou seulement quelques caractères sans rapport avec le texte à reconnaître,​ c'est que la ROC n'a pas fonctionné. Cela peut provenir d'une résolution trop faible du document d'​origine ou d'une trop mauvaise qualité de ce document. Selon le mode d'​installation de tesseract que vous avez utilisé, certains formats de fichier ne seront pas ou mal reconnus si vous n'​utilisez pas au préalable la fonction "​unpaper"​ (outil --> nettoyer (clean up)) de gscan2pdf. ​+**Le résultat de la ROC apparaît dans l'​onglet '​Calque du texte' de la fenêtre gscan2pdf. Pour sauvegarder le résultat, il faut enregistrer l'​image sous un format qui contient les caractères (Texte, PDF...). ​**  ​Si rien n’apparaît dans cette zone, ou seulement quelques caractères sans rapport avec le texte à reconnaître,​ c'est que la ROC n'a pas fonctionné. Cela peut provenir d'une résolution trop faible du document d'​origine ou d'une trop mauvaise qualité de ce document. Selon le mode d'​installation de tesseract que vous avez utilisé, certains formats de fichier ne seront pas ou mal reconnus si vous n'​utilisez pas au préalable la fonction "​unpaper"​ (outil --> nettoyer (clean up)) de gscan2pdf. ​
  
 <note tip>S**i la ROC est nulle ou de qualité médiocre même après traitement "​unpaper"​** (= nettoyer = clean up), on peut obtenir de bons résultats en modifiant au préalable avec Gimp le document à reconnaître. Exemple pour une image PDF : <note tip>S**i la ROC est nulle ou de qualité médiocre même après traitement "​unpaper"​** (= nettoyer = clean up), on peut obtenir de bons résultats en modifiant au préalable avec Gimp le document à reconnaître. Exemple pour une image PDF :
  • gscan2pdf.1663613976.txt.gz
  • Dernière modification: Le 19/09/2022, 20:59
  • par f2ot