
O OCR ou o acrônimo em português de “Reconhecimento Ótico de Caracteres” é a capacidade de extração de caracteres de imagens.
A tecnologia do OCR pode ser aplicado em várias soluções como análise de contratos, cheques, imagens digitalizados, também pode ser utilizado em iot para verificar placas de carros.
Com Python podemos utilizar o pacote pytesseract para acessar o software Tesseract e extrair caracteres de imagens.
Como instalar e utilizar pytesseract.
Primeiro precisamos instalar o tesseract para utilizar a capacidade de OCR.
$ sudo apt-get install tesseract-ocr

Agora precisamos instalar o pytesseract para acessar o tesseract:
$ pip install pytesseract
Agora já podemos testar uma extração de caracteres via Python.
Vamos extrair o texto da imagem abaixo, nesse caso o meu nome “Sidney”.

>>>import Image
>>>import pytesseract
>>>print pytesseract.image_to_string(Image.open('/tmp/teste.jpeg'))

Conclusão.
Uma forma simples e rápida utilizando pytesseract e Tesseract, podemos fazer aplicações utilizando OCR sem muito esforço e com poucas linhas de comando.