Pythontr

husonet | Tarih: 01.09.2012

Tesseract nedir? Tesseract kurulumu

Tesseract nedir? Tesseract kurulumu nasıl yapılır

Tesseract nedir? OCR işlemi yapan kütüphanedir. Resim lerin üzerindeki textleri okumaya yarar.



Debian Squeeze üzerinde Tesseract 3.x notları

# Kurulum
aptitude install autogen autoconf automake libtool

- leptonica
http://www.leptonica.com/download.html
wget http://www.leptonica.com/source/leptonica-1.69.tar.gz
tar zxf leptonica-1.69.tar.gz
cd leptonica-1.69
./configure
make
su
make install
ldconfig
exit

- tesseract
http://code.google.com/p/tesseract-ocr/downloads/list
wget http://code.google.com/p/tesseract-ocr/downloads/detail?name=tesseract-3.01.tar.gz
tar zxf tesseract-3.01.tar.gz
cd tesseract-3.01
./autogen
./configure
make
su
make install
ldconfig
exit

- Dil dosyası
su
cd /usr/local/share/tessdata/
wget http://code.google.com/p/tesseract-ocr/downloads/detail?name=tur.traineddata.gz
wget http://code.google.com/p/tesseract-ocr/downloads/detail?name=eng.traineddata.gz
gunzip tur.traineddata.gz
gunzip eng.traineddata.gz


# Kullanım
tesseract resim.jpg output.txt -l tur


# Kaynaklar
training: http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3



# -----------------------------------------------------------------------------
# HOCR NOTLARI
# -----------------------------------------------------------------------------

# Kurulum
aptitude install exactimage



# Kullanım
tesseract resim.jpg output.txt -l tur hocr
hocr2pdf -i resim.tif -o output.pdf < output.html


Not: Kaldırım