Tesseract OCR

Freitag, 17 November 2017 20:48

Tesseract OCR Texterkennung

geschrieben von Zenhäusern Jean-Marc

Tesseract ist ein OCR (optical character recognition).

sudo apt-get install tesseract-ocr tesseract-ocr-deu tesseract-ocr-eng

Das Programm kann mit folgendem Befehl gestartet werden.

tesseract

Das OCR Programm verfügt einige Einstellungen. Diese werden mit folgendem Befehl angezeigt werden.

man tesseract

Publiziert in Tesseract OCR

Freitag, 17 November 2017 17:22

Installationsprozess Tesseract OCR

geschrieben von Zenhäusern Jean-Marc

Der Installationsprozess für Tesseract ist relativ einfach, da sich dieser bereits im Softwarepacket von Ubuntu 16.x.x befindet:

sudo apt update // Datenbank aktualisieren

sudo apt upgrade // Ubuntu Softwareaktualisierung durchführen

sudo apt-get install tesseract-ocr tesseract-ocr-deu tesseract-ocr-eng // Tesseract installieren. Für Deutsch und English

fertig!

Publiziert in Tesseract OCR

Freitag, 17 November 2017 18:21

Tesseract benutzen, einsetzen

geschrieben von Zenhäusern Jean-Marc

Das OCR-Programm kann mit folgendem Befehl eingesetzt werden:

tesseract scan.jpg scan -l deu // Damit wird die Bilddatei "scan.jpg" mit der Texterkennung für die deutschesprachige Dokumente und zu einer Datei mit dem Namen "scan.txt" umgewandelt. Es können auch *.tif Dateien eingesetzt werden. Schwarzweiss *.tif Dateien mit einer Auflösung grösser oder gleich 300 DPI, eignen sich am besten.

Eingene Tests haben ergeben, dass folgende Befehlszeile bessere Ergebnisse liefert:

tesseract scan.jpg scan

Publiziert in Tesseract OCR

Themenwahl

Tesseract OCR Texterkennung

Installationsprozess Tesseract OCR

Tesseract benutzen, einsetzen