Paquet : ocrmypdf (8.0.1+dfsg-1)

Liens pour ocrmypdf

Ressources Debian :

Télécharger le paquet source ocrmypdf :

Responsable :

Sean Whitton (Page QA)

Ressources externes :

Page d'accueil [github.com]

Paquets similaires :

ajout d’un calque de texte issu de ROC aux fichiers PDF

OCRmyPDF génère un fichier PDF/A navigable à partir d'un PDF normal ne contenant que des images, ce qui permet de faire des recherches à l'intérieur.

Il utilise le moteur de ROC Tesseract et gère donc toutes les langues prises en charge par Tesseract.

Quelques autres fonctions importantes :

 – mise du texte de ROC précisément sous l'image pour faciliter le
   copier/coller ;
 – conservation de la résolution exacte des images embarquées originales ;
 – si possible, insertion des informations de ROC sans perte en
   n'affichant pas les informations vectorielles ;
 – conservation d’une taille de fichier à peu près identique ;
 – redressement ou nettoyage de l’image, si demandé, avant d'effectuer
   la ROC ;
 – validation des fichiers d'entrée et de sortie ;
 – fourniture d’un mode de débogage pour permettre une vérification
   facile des résultats de la ROC ;
 – traitement des pages en parallèle si plus d'un cœur de processeur
   est disponible ;
 – abondamment testé sur des milliers de PDF, une suite de tests et
   une intégration continue.

Autres paquets associés à ocrmypdf

dépendances

recommandations

suggestions

enhances

dep: ghostscript (>= 9.18~dfsg~)

interpréteur PostScript et PDF
dep: icc-profiles-free

ICC color profiles for use with color profile aware software
dep: liblept5

image processing library
dep: python3

langage orienté objet interactif de haut niveau – version par défaut de Python 3
dep: python3-cffi-backend-api-max (>= 9729)

Paquet indisponible
dep: python3-cffi-backend-api-min (<= 9729)

Paquet indisponible
dep: python3-chardet

détecteur universel d'encodage de caractères pour Python3
dep: python3-img2pdf (>= 0.3.0)

Lossless conversion of raster images to PDF (library)
dep: python3-pdfminer (>= 20181108+dfsg-3)

PDF parser and analyser (Python3)
dep: python3-pikepdf

Python library to read and write PDFs with QPDF
dep: python3-pil

Python Imaging Library (Python3)
dep: python3-pkg-resources

découverte de paquets et accès aux ressources avec pkg_resources
dep: python3-reportlab

bibliothèque ReportLab pour créer des documents PDF en utilisant Python3
dep: python3-ruffus (>= 2.8)

Python3 computation pipeline library widely used in bioinformatics
dep: qpdf (>= 8.0.2)

outils pour modifier et examiner des fichiers PDF
dep: tesseract-ocr (>= 4.0.0)

outil de ROC en ligne de commande de Tesseract
dep: zlib1g

Bibliothèque de compression - binaires

rec: pngquant

Utilitaire d'optimisation d'images PNG (Portable Network Graphics)
rec: unpaper

Outil de traitement d'images pour des pages numérisées

sug: img2pdf

conversion sans pertes d’images matricielles en PDF
sug: ocrmypdf-doc

ajout d'un calque de texte ROC aux fichiers PDF – documentation
sug: python-watchdog

Python API and shell utilities to monitor file system events - Python 2.x

Télécharger ocrmypdf

Télécharger pour toutes les architectures proposées
Architecture	Taille du paquet	Espace occupé une fois installé	Fichiers
all	109,5 ko	431,0 ko	[liste des fichiers]