Page en relecture Version Hoary Redigé par [[utilisateurs:lok]]. {{ https://image.flaticon.com/icons/png/512/1180/1180672.png?120}} ====== HTMLDOC : la conversion de pages Internet en fichier PDF ou PSP ====== ===== Introduction ===== Enregistrer le contenu d'un site, ou tout du moins une partie, sur son disque dur présente de nombreux avantages. Mais si vous êtes comme moi, vous préférez peut-être voir un seul fichier par site, plutôt que des pages et des dossiers n'ayant pas des noms obligatoirement représentatifs. **htmldoc** est un outil écrit en c/c++ qui permet ces conversions, simplement et en conservant parfaitement les liens, les formules latex, et les images. Prenons par exemple le site [[http://mitpress.mit.edu/sicp/full-text/book/book.html]], il s'agit d'un livre mis à disposition gratuitement sous forme de pages html. Nous allons le convertir en fichier pdf. Avant tout, installez le paquet **htmldoc** avec [[:synaptic|Synaptic]] ou [[:apt|apt-get]] si ce n'est pas déjà le cas. Vous pouvez aussi (installation en 1 clic) cliquer sur [[apt://htmldoc|{{:apt.png|}}]] ===== Récupérer le livre ===== En regardant rapidement les liens présents sur site, on peut voir qu'il y a plusieurs pages html séparées. Avant de commencer nous allons donc récupérer tous les fichiers concernant le livre : wget -rkpE http://mitpress.mit.edu/sicp/full-text/book/book.html wget va télécharger tout ce qui est lié à la page //book.html// puis convertir les liens afin que tout le livre soit lisible localement. Vous pouvez vérifier tout cela en ouvrant le fichier //~/mitpress.mit.edu/sicp/full-text/book/book.html// à l'aide de [[:Firefox]]. ===== Htmldoc ===== ==== Input ==== Cliquez sur le bouton //Add Files// puis parcourez l'arborescence //mitpress.mit.edu/sicp/full-text/book///. Pour sélectionner rapidement tous les fichiers, faites un cliquer-déposer et sélectionnez-les tous. Si nous n'avions pas téléchargé précédement toutes les pages avec **wget**, nous aurions dû ajouter les url une à une (dans notre cas, il y en a 39).{{applications:htmldoc_input.png}} **__Attention__** : L'ordre des fichiers ajoutés est conservé, ici nous avons une page de garde qui est //book.html// si vous ne replacez pas cette dernière en haut de la liste, votre page de garde sera la dernière du fichier PDF généré. L'option //Document Type// vous propose trois choix : * //Book// : Ceci créera un fichier PDF avec une première page de couverture, et un sommaire généré automatiquement. De plus, votre PDF contiendra des bookmarks en fonction de ce sommaire. * //Continuous// : permet de ne pas laisser d'espace blanc entre la transition d'une page web à une autre dans le PDF. * //Web Page// : à l'inverse, cette option fait débuter une page web depuis le haut d'une des pages du PDF. Dans notre cas, la mise en page et le sommaire ont déjà été faits dans le fichier html, nous allons donc utiliser l'option //Web Page// pour la mise en forme. ==== Output ==== L'onglet suivant concerne la sortie du programme, il n'y a presque rien à configurer. Spécifiez un nom de fichier, choisissez un format (PDF dans notre cas) et un taux de compression (celui par défaut donne de très bon résultats). ==== Page ==== Dans cet onglet vous allez pouvoir régler le type de feuilles utilisé pour vos pages, leurs sens, la taille des marges et quelques petits ajouts supplémentaires. Je vous conseille de laisser par défaut le format de la page et la longueur des marges, les options //headers// et //footers// rajoutent respectivement des en-tête et des pied-de-pages. Ces réglages se font donc vraiment selon vos goûts. ==== Colors ==== Si vous souhaitez obtenir un document qui ne soit pas noir sur blanc, c'est le moment de modifier cela. En ce qui me concerne, j'ai gardé le texte en noir sur fond blanc et j'ai mis les liens en bleu. Pour le //Link Style// il existe deux méthodes : * //Plain// : votre lien apparaitra comme une portion de texte, ce qui le confond avec le reste de la page * //Underline// : tous les liens seront soulignés. ==== Fonts ==== Dans cet onglet se trouve toutes les options pour changer la police et la taille de la police d'écriture, la fois pour le texte normal, mais aussi pour les en-têtes. La taille des interlignes est aussi modifiable. La partie concernant le jeu de caractères à utiliser dépend à la fois du texte que vous transformerez et du lecteur PDF que vous utiliserez. Ici nous avons un texte anglais, donc sans accents //iso-8859-1// est censé correspondre au jeu de caractères latins utilisés dans les pays d'Europe occidentale et d'Amérique du Nord, toutefois il est préférable d'utiliser l'//iso-8859-15// à la place qui est une "extension" du premier type d'encodage de caractères mais qui comprend aussi le symbole « euro » et quelques autres modifications dans la liste des caractères. Vous ne bénéficierez malgré tout pas du « e dans l'o » ou du « Ÿ » qui font partie du Français pourtant. ==== PDF ==== Ces options concernent le type de PDF que nous voulons créer. Puisque l'on dispose de lecteurs à jours, nous pouvons mettre sans problème la version du pdf à 1.4. L'option //Page Mode// sert juste à définir quel sera le mode par défaut de votre PDF à son ouverture. Quel que soit votre choix vous pouvez naturellement changer le mode de visualisation par la suite, et il en est de même pour l'option //Page Layout//. Vous avez aussi la possibilité de rajouter un effet sur les transitions des pages (seul acroread les interprète). Enfin, n'oubliez pas l'option //include links// pour conserver les liens de vos pages html. ===== Liens Externes ===== Le site officiel de [[http://michaelrsweet.github.io/htmldoc|htmldoc]] Quelques lecteurs pdf disponibles sous linux : gpdf (gtk), kpdf (qt), [[:Xpdf]] (motif), [[:evince]] (gtk), [[:acroread|Acrobat Reader]]... ---- {{tag>pdf}}