Convertir el contenido de una imagen a texto

Linux•9/14/2011

En mas de alguna ocasion nos vemos en la necesidad de convertir el contenido de una imagen en un archivo de texto, para asi evitarnos largos ratos digitando a simplemente simplificarnos la vida.

Pues nuestra solucion es utilizar una aplicacion OCR

, hay muchas opciones para este tipo de software, entre las cuales podemos mencionar tesseract, gocr, ocropus, etc. pero para nuestro caso utilizaremos tesseract

como motor OCR, y la aplicacion gscan2pdf que se encuentran en los repositorios de Debian. bien manos a la obra.

1.Instalamos el motor OCR (como root)

#aptitude install -y tesseract-ocr tesseract-ocr-spa

2. Instalamos el gscan2pdf

#aptitude install -y gscan2pdf

3. Iniciamos la aplicacion (menu->aplicaciones->graficos->gscan2pdf)

4. Importamos la imagen que contiene el texto a extraer
menu archivo->importar

5. menu herramientas->OCR; se abrira un cuadro de dialogo en el cual seleccionamos el motor OCR, la(s) pagina(s) a procesar y el idioma, ejecutamos el boton "iniciar OCR"

6. En la area de trabajo hay dos pestañas, seleccionamos la que dice: "OCR output".

7. Hacemos click sobre el texto que alli aparece.

8. Aparecera una ventana con el texto extraido de la imagen, ahora solo copiamos y agregamos formato segun necesitemos (con un procesador de texto de nuestra eleccion)

Pareceran muchos pasos, pero en la practica es mucho mas sencillo.

Espero les sea de utilidad, pues a mi me salvo de pasar un muy buen rato digitando.

http://es.wikipedia.org/wiki/OCR

http://es.wikipedia.org/wiki/Tesseract_OCR

Datos archivados del Taringa! original

10puntos

1,840visitas

0comentarios

Actividad nueva en Posteamelo

0puntos

1visitas

0comentarios

Dar puntos:

Convertir el contenido de una imagen a texto

Dejá tu comentario

Autor del Post