Tesseract ist ein OCR (optical character recognition).
sudo apt-get install tesseract-ocr tesseract-ocr-deu tesseract-ocr-eng
Das Programm kann mit folgendem Befehl gestartet werden.
tesseract
Das OCR Programm verfügt einige Einstellungen. Diese werden mit folgendem Befehl angezeigt werden.
man tesseract
Installationsprozess Tesseract OCR
geschrieben von Zenhäusern Jean-MarcDer Installationsprozess für Tesseract ist relativ einfach, da sich dieser bereits im Softwarepacket von Ubuntu 16.x.x befindet:
sudo apt update
// Datenbank aktualisieren
sudo apt upgrade
// Ubuntu Softwareaktualisierung durchführen
sudo apt-get install tesseract-ocr
tesseract-ocr-deu tesseract-ocr-eng // Tesseract installieren. Für Deutsch und English
fertig!
Das OCR-Programm kann mit folgendem Befehl eingesetzt werden:
tesseract scan.jpg scan -l deu
// Damit wird die Bilddatei "scan.jpg" mit der Texterkennung für die deutschesprachige Dokumente und zu einer Datei mit dem Namen "scan.txt" umgewandelt. Es können auch *.tif Dateien eingesetzt werden. Schwarzweiss *.tif Dateien mit einer Auflösung grösser oder gleich 300 DPI, eignen sich am besten.
Eingene Tests haben ergeben, dass folgende Befehlszeile bessere Ergebnisse liefert:
tesseract scan.jpg scan