xscharlie

Usuario (El Salvador)

Primer post: 14 sept 2011Último post: 14 sept 2011

Posts

Puntos totales

Comentarios

Convertir el contenido de una imagen a texto

LinuxporAnónimo9/14/2011

En mas de alguna ocasion nos vemos en la necesidad de convertir el contenido de una imagen en un archivo de texto, para asi evitarnos largos ratos digitando a simplemente simplificarnos la vida.Pues nuestra solucion es utilizar una aplicacion OCR , hay muchas opciones para este tipo de software, entre las cuales podemos mencionar tesseract, gocr, ocropus, etc. pero para nuestro caso utilizaremos tesseract como motor OCR, y la aplicacion gscan2pdf que se encuentran en los repositorios de Debian. bien manos a la obra.1.Instalamos el motor OCR (como root)#aptitude install -y tesseract-ocr tesseract-ocr-spa2. Instalamos el gscan2pdf#aptitude install -y gscan2pdf3. Iniciamos la aplicacion (menu->aplicaciones->graficos->gscan2pdf)4. Importamos la imagen que contiene el texto a extraermenu archivo->importar5. menu herramientas->OCR; se abrira un cuadro de dialogo en el cual seleccionamos el motor OCR, la(s) pagina(s) a procesar y el idioma, ejecutamos el boton "iniciar OCR"6. En la area de trabajo hay dos pestañas, seleccionamos la que dice: "OCR output".7. Hacemos click sobre el texto que alli aparece.8. Aparecera una ventana con el texto extraido de la imagen, ahora solo copiamos y agregamos formato segun necesitemos (con un procesador de texto de nuestra eleccion)Pareceran muchos pasos, pero en la practica es mucho mas sencillo.Espero les sea de utilidad, pues a mi me salvo de pasar un muy buen rato digitando. http://es.wikipedia.org/wiki/OCR http://es.wikipedia.org/wiki/Tesseract_OCR