ocr

OCR, abreviação de reconhecimento óptico de caracteres, refere-se à tecnologia usada para converter caracteres impressos, escritos ou digitados em um formato digital. O processo permite que o texto seja lido por um computador, o que permite que os caracteres sejam editados e pesquisados. Essa tecnologia não só revolucionou a entrada de dados, mas também é uma ferramenta útil para cegos e deficientes visuais.

Como funciona o OCR?

Depois de usar um scanner óptico para digitalizar um documento e dividi-lo em caracteres, a tecnologia OCR tem duas abordagens diferentes para converter caracteres em um reconhecimento de padrão de formato digital e detecção de recursos.

O reconhecimento de padrões, também conhecido como correspondência de matriz e correspondência de padrões, funciona comparando um caractere que faz a varredura com um acúmulo de imagens de caractere que o programa possui em arquivo. Isso só funciona quando os caracteres correspondem exatamente aos pixels dos caracteres que o OCR usa como referência. Na década de 1960, a fonte OCR-A foi criada para ser impressa em cheques a fim de padronizar a fonte para programas de OCR de bancos. Eventualmente, o reconhecimento de padrão se expandiu para reconhecer várias fontes comuns como Arial e Times New Roman, mas o programa ainda estava restrito a apenas converter caracteres que estavam em algumas fontes selecionadas.

A detecção de recursos, também conhecida como extração de recursos, permite que o OCR leia caracteres em quase todas as fontes. Em vez de procurar a réplica exata de um personagem, a detecção de recursos funciona distinguindo recursos específicos que um personagem terá, independentemente da fonte. Por exemplo, se o programa digitaliza um caractere que tem duas linhas inclinadas que se encontram no topo para fazer um ponto, ele pode dizer que a letra é maiúscula. A detecção de recurso expande os usos e recursos dos programas de OCR tipo comum de OCR usado hoje.

Embora o OCR se limite a converter texto impresso, o reconhecimento inteligente de caracteres (ICR) pode transformar a escrita à mão em texto que pode ser lido, pesquisado ou editado por um computador. Embora seja da mesma família do OCR, o ICR é um processo muito mais difícil, pois a escrita à mão é mais variada do que as fontes.

Usos para OCR

  • Entrada de dados
  • Assistir cegos e deficientes visuais
  • Digitalize livros
  • Classificação de correspondência
  • Torne PDFs, livros e documentos físicos pesquisáveis
  • Reconhecimento de matrícula
  • Reconhecimento de passaporte