Themenwahl

Freitag, 17 November 2017 20:48

Tesseract OCR Texterkennung

geschrieben von

Tesseract ist ein OCR (optical character recognition).

sudo apt-get install tesseract-ocr tesseract-ocr-deu tesseract-ocr-eng

Das Programm kann mit folgendem Befehl gestartet werden.

tesseract

Das OCR Programm verfügt einige Einstellungen. Diese werden mit folgendem Befehl angezeigt werden.

man tesseract


Freitag, 17 November 2017 17:22

Installationsprozess Tesseract OCR

geschrieben von

Der Installationsprozess für Tesseract ist relativ einfach, da sich dieser bereits im Softwarepacket von Ubuntu 16.x.x befindet:

sudo apt update // Datenbank aktualisieren

sudo apt upgrade // Ubuntu Softwareaktualisierung durchführen

sudo apt-get install tesseract-ocr tesseract-ocr-deu tesseract-ocr-eng // Tesseract installieren. Für Deutsch und English

fertig!


Freitag, 17 November 2017 18:21

Tesseract benutzen, einsetzen

geschrieben von

Das OCR-Programm kann mit folgendem Befehl eingesetzt werden:

tesseract scan.jpg scan -l deu // Damit wird die Bilddatei "scan.jpg" mit der Texterkennung für die deutschesprachige Dokumente und zu einer Datei mit dem Namen "scan.txt" umgewandelt. Es können auch *.tif Dateien eingesetzt werden. Schwarzweiss *.tif Dateien mit einer Auflösung grösser oder gleich 300 DPI, eignen sich am besten.

Eingene Tests haben ergeben, dass folgende Befehlszeile bessere Ergebnisse liefert:

tesseract scan.jpg scan