OCRmyPDF – Texterkennung mit Linux-Werkzeugen

Einleitung

OCRmyPDF ist ein Linux Kommandozeilentool, welches verschiedene Linux-Tools zur Erstellung von durchsuchbaren PDF-Dateien nutzt – Texterkennung mit Linux. Hierbei erweitert OCRmyPDF ein PDF um eine zusätzlich Ebene mit Text. Zur Texterkennung nutzt es Tesseract.

Installation

Neben Tesseract werden einige weitere Pakete benötigt:

Sind diese besorgt kann OCRmyPDF installiert werden:

Im Anschluss kann getestet werden.

Test

Hilfe sowie verfügbare Optionen ausgeben:

Dokument mit Sprache „Deutsch“ verarbeiten und unter neuem Namen ablegen:

Mit inotify-tools soll nun ein Verzeichnis auf neue PDF-Dateien überwacht werden, damit diese automatisch verarbeitet werden können.

inotify-iools

Wir besorgen uns zunächst inotify-tools:

Schließlich sorgen wir dafür,dass neue PDFs automatisch verarbeitet werden.

Have fun!

Ein Gedanke zu „OCRmyPDF – Texterkennung mit Linux-Werkzeugen“

  1. Vielen Dank für diesen Beitrag, der mich sehr inspiriert hat!

    Ich wollte das unter Nextcloud einbinden, was aber leider nicht geklappt, da die Dateien beim Kopieren in das Verzeichnis erst als .part gespeichert werden. inotifywait triggert zwar den Prozess, aber ocrmypdf meldet dann „file not found“.

    Habe es jetzt so glöst, das intofiywait nicht ocrmypdf direkt startet sondern ein Skript, das seinerseit erstmal überprüft, ob ein pdf in dem Verzeichnis ist, und es dann ggfalls mit ocrmypdf verarbeitet.

    Nützlich wäre auch noch eine Anleitung, wie man intofiywait als ständig laufenden Dienst einbindet.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.