En mas de alguna ocasion nos vemos en la necesidad de convertir el contenido de una imagen en un archivo de texto, para asi evitarnos largos ratos digitando a simplemente simplificarnos la vida.
Pues nuestra solucion es utilizar una aplicacion OCR
, hay muchas opciones para este tipo de software, entre las cuales podemos mencionar tesseract, gocr, ocropus, etc. pero para nuestro caso utilizaremos tesseract
como motor OCR, y la aplicacion gscan2pdf que se encuentran en los repositorios de Debian. bien manos a la obra.
1.Instalamos el motor OCR (como root)
#aptitude install -y tesseract-ocr tesseract-ocr-spa
2. Instalamos el gscan2pdf
#aptitude install -y gscan2pdf
3. Iniciamos la aplicacion (menu->aplicaciones->graficos->gscan2pdf)
4. Importamos la imagen que contiene el texto a extraer
menu archivo->importar
5. menu herramientas->OCR; se abrira un cuadro de dialogo en el cual seleccionamos el motor OCR, la(s) pagina(s) a procesar y el idioma, ejecutamos el boton "iniciar OCR"
6. En la area de trabajo hay dos pestañas, seleccionamos la que dice: "OCR output".
7. Hacemos click sobre el texto que alli aparece.
8. Aparecera una ventana con el texto extraido de la imagen, ahora solo copiamos y agregamos formato segun necesitemos (con un procesador de texto de nuestra eleccion)
Pareceran muchos pasos, pero en la practica es mucho mas sencillo.
Espero les sea de utilidad, pues a mi me salvo de pasar un muy buen rato digitando.
http://es.wikipedia.org/wiki/OCR
http://es.wikipedia.org/wiki/Tesseract_OCR
Pues nuestra solucion es utilizar una aplicacion OCR
, hay muchas opciones para este tipo de software, entre las cuales podemos mencionar tesseract, gocr, ocropus, etc. pero para nuestro caso utilizaremos tesseract
como motor OCR, y la aplicacion gscan2pdf que se encuentran en los repositorios de Debian. bien manos a la obra.1.Instalamos el motor OCR (como root)
#aptitude install -y tesseract-ocr tesseract-ocr-spa
2. Instalamos el gscan2pdf
#aptitude install -y gscan2pdf
3. Iniciamos la aplicacion (menu->aplicaciones->graficos->gscan2pdf)
4. Importamos la imagen que contiene el texto a extraer
menu archivo->importar
5. menu herramientas->OCR; se abrira un cuadro de dialogo en el cual seleccionamos el motor OCR, la(s) pagina(s) a procesar y el idioma, ejecutamos el boton "iniciar OCR"
6. En la area de trabajo hay dos pestañas, seleccionamos la que dice: "OCR output".
7. Hacemos click sobre el texto que alli aparece.
8. Aparecera una ventana con el texto extraido de la imagen, ahora solo copiamos y agregamos formato segun necesitemos (con un procesador de texto de nuestra eleccion)
Pareceran muchos pasos, pero en la practica es mucho mas sencillo.
Espero les sea de utilidad, pues a mi me salvo de pasar un muy buen rato digitando.
http://es.wikipedia.org/wiki/OCR
http://es.wikipedia.org/wiki/Tesseract_OCR