HERRAMIENTAS OCR

Si eres traductor o traductor jurado (o estudiante, claro está), te habrás encontrado con los típicos documentos PDF escaneados. Estos archivos PDF no son editables, es decir, no puedes coger el texto directamente del PDF y copiarlo, por ejemplo. Aquí entran en huego las herramientas OCR.

Trabajar con copias escaneadas de documentos puede ser una verdadera pesadilla, así que te mostramos unos pequeños consejos y trucos para acelerar la productividad y no tener que pasar horas copiando un texto o traduciendo a la vista. Además, te dejamos una lista de herramientas OCR gratuitas y de pago.

Si nunca has oído hablar de las herramientas OCR, te estarás preguntando qué son. OCR son las siglas de Optical Character Recognition en inglés. En español se conoce como Reconocimiento Óptico de Caracteres y es una tecnología que nos permite «sacar» texto de documento plano, como un PDF escaneado o una imagen JPG. El programa Abbyy, que mencionaremos más adelante en nuestra lista herramientas OCR, nos explica de la siguiente forma lo que hay detrás de la tecnología OCR:

«Primero, el programa de OCR analiza la estructura de la imagen del documento. Divide la página en elementos tales como bloques de texto, tablas, imágenes y etc. Las líneas están divididas en palabras y después en caracteres. Una vez que los caracteres han sido señalados, el programa los compara con un conjunto de imágenes del patrón. Esto avanza las numerosas hipótesis sobre que es este carácter. En base de estas hipótesis el programa analiza diferentes variantes de ruptura de líneas en palabras y palabras en caracteres. Después de procesar un enorme número de tales hipótesis probabilísticas, el programa finalmente toma la decisión, presentando a usted el texto reconocido.»

En resumen, el programa de OCR analiza el documento, divide sus elementos, señala los caracteres, los compara, los procesa, y finalmente, nos devuelve el texto editable.

Pequeños consejos y utilidades

Una herramienta OCR puede ser muy útil si necesitas extraer los datos de una tabla y no quieres perder tiempo copiando los datos. Si la tabla tiene una estructura algo compleja, obtendrás un mejor resultado si tú mismo «calcas» la estructura antes de exportar.

Te mostramos un ejemplo de Abbyy Finereader:

Tabla_OCR_automática

Tabla «calcada» automáticamente por el programa.

OCR_tabla_manual

Tabla «calcada» manualmente antes de exportar.

Hablando de tablas, si lo que necesitas es pasar datos de una tabla a una hoja de Excel, en Abbyy Finereader tienes la opción de reconocer el texto de una tabla, copiarlo y pegarlo. Lo que mejor funciona es copiar la tabla en un documento de Word, modificar la tabla si se ha quedado algo fuera de sitio, y seguidamente copiarlo en Excel. Para hacer esto, calca manualmente la tabla, dale clic al botón derecho del ratón, y pica en la opción «Copiar texto reconocido». Ya tendrás la tabla con sus datos en tu portapapeles.

Si ves que los documentos están algo torcidos, lo ideal sería desincinarlos primero para que el OCR realice un mejor reconocimiento de los caracteres. El resultado será sorprendentemente mejor. En Abbyy Finereader te da la posibilidad de desinclinarlos con el Editor de imágenes.

Opción «Desinclinar» de Abbyy Finereader.

Cuando tengas un documento escaneado en PDF con el texto algo borroso o descolorido, convierte el PDF a JPG y juega un poco con el contraste y el brillo. Así, la herramienta OCR reconocerá más fácilmente los caracteres.

OCR brillo y contraste

Opción para cambiar brillo y contraste en Abbyy Finereader.

Para que puedan aprovechar la tecnología OCR, les dejamos una lista de programas de pago y gratuitos:

Este es el software que usamos nosotros. Ofrece muchísimas posibilidades, como corrección de imagen dentro de la aplicación, opción para desinclinar, varios formatos de exportación (PDF, Word, Excel, PowePoint, ePub, FB2, imagen, HTML, …) y reconoce una multitud de idiomas, incluidos idiomas artificiales como C/C++, Java, Fortran, COBO, formulas químicas simples, entre otros.

Otro software OCR que ofrece unos resultados muy buenos. Además, tiene otras funciones de edición de PDF, como crear formularios, firmar PDF, hacer revisiones y comentarios, y combinar archivos, entre otras. Es una herramienta muy completa. La única pega es que no puedes comprar el software y tenerlo «para siempre», ya que se trata de un servicio de suscripción.

Al igual que Adobe Acrobat DC, se trata de una herramienta completa para editar PDF que incluye reconocimiento OCR. Es una buena opción si queremos comprar el software de forma definitiva, sin suscripciones.

  • PDF OCR X – 29,99 $ (Versión gratuita limitada a 1 página)

Este software OCR hace su trabajo, dejémoslo ahí. La interfaz de usuario no es que esté demasiado cuidada y para tablas no es la gran cosa. Sin embargo, hay una cosa que nos ha gustado muchísimo: la conversión a PDF con capacidad de búsqueda. Así, podremos buscar una palabra dentro de nuestro PDF sin tener que leernos todas las páginas. Otra herramienta gratuita para convertir a PDF con capacidad de búsqueda es SandwichPDF.

Se trata de un programa OCR, pero en versión «light». Podemos hacer capturas de pantalla en nuestro ordenador y pasarlo a texto de forma muy rápida. Es una solución para usuarios ocasionales y no está pensado para un uso profesional. Si lo que necesitas es escanear trozos de texto o alguna página suelta, es una buena opción por un precio bastante asequible.

Herramientas OCR (gratis)

www.onlineocr.net

Este conversor online es bastante bueno, pero no tiene demasiado éxito con las tablas. Si necesitas pasar un PDF con texto a documento editable, es una buena opción.

www.convertio.co

Otra herramienta OCR online gratuita. Está limitada a 10 páginas si no te registras. Funciona bastante bien, aunque el tiempo de conversión suele ser algo elevado.

Lamentablemente, no hemos logrado encontrar una herramienta gratuita que funcione tan bien como las de pago. Y obviamente, no queremos recomendarte opciones que no den unos resultados decentes. Nosotros optamos por Abbyy Finereader para que no se nos escape ni un detalle de tu traducción jurada. Además, somos más productivos y podemos entregarte tus traducciones de forma más rápida.

¿Conoces alguna herramienta OCR que deba estar en la lista? ¿Tiene algunos consejos que aportar? No dudes en dejar un comentario con tus preguntas o sugerencias. 🙂