Quais são as desvantagens do reconhecimento óptico de caracteres?

A principal desvantagem da digitalização por reconhecimento óptico de caracteres é o potencial de introduzir erros em um documento digitalizado. Nenhum sistema de digitalização OCR é infalível e documentos de baixa qualidade podem criar erros suficientes para exigir muito tempo e consumindo revisão. Fontes manuscritas e não latinas são particularmente difíceis de digitalizar corretamente.

Scanners óticos também podem ter problemas com documentos que não apresentam contraste significativo entre os caracteres e o fundo. Páginas sujas ou impressas em papel colorido podem confundir o scanner e resultar em grandes blocos de texto não lido. As etapas extras necessárias para processar originais de baixa qualidade adequados para digitalização OCR podem acabar compensando completamente a economia de tempo potencial que a tecnologia oferece.

A melhor maneira de garantir que a digitalização OCR seja a mais precisa e rápida possível é projetar o documento original especificamente para digitalização óptica. Por exemplo, muitos pacotes de OCR têm dificuldade em diferenciar caracteres semelhantes, como o numeral zero e a letra O. As fontes compatíveis com OCR fazem com que esses dois caracteres apareçam o mais diferentes possível para ajudar o computador a ler o documento.

Os documentos manuscritos requerem um espaçamento claro e uniforme entre as letras para garantir uma digitalização adequada. É por isso que os formulários que usam a tecnologia OCR geralmente exigem que os usuários imprimam em letras maiúsculas dentro de uma série de caixas. Cada caixa separada pode ser verificada individualmente, evitando que o computador interprete mal as letras que foram executadas juntas.