pablogu

Usuario

Primer post: 22 jul 2010

Posts

Puntos totales

Comentarios

InfoporAnónimoFecha desconocida

De texto a mp3: evaluación de programas Pasar un archivo de texto (o un .doc, .pdf, .rtf...) a un .mp3 significa poder llevarte el texto en un reproductor de mp3 y escucharlo mientras caminás, viajas, etc. A mi, que por mi laburo tengo que pasar muchas horas sobre un móvil, me resulta bastante. Además, es evidente la ventaja que esto representa para las personas con discapacidades visuales: desde la lectura de lo que sucede en pantalla hasta la posibilidad de escuchar libros. Hay muchísimos productos que realizan este proceso de conversión pero hay que tener en cuetna lo siguiente: Se necesitan estos elementos: a) voces sintéticas: Son archivos donde están grabadas las voces humanas que servirán para la conversión. Dicho de un modo supersimplificado, sería como un "diccionario" donde a cada letra le corresponde un sonido: a la letra "a" le corresponde el sonido "a", etc. Estas voces sintéticas son utilizadas por distintos programas: lectores de pantalla, lectores de archivos, conversores de archivos, etc. Las hay de distintas calidades, desde las que tienen una voz superobotica (tipo el XL5, para los que tienen más de 40), hasta voces supernaturales, que realmente uno duda de que eso sea producido computarizadamente. Entre las más conocidas están: http://activex.microsoft.com/activex/controls/agent2/lhttsspe.exe http://download.microsoft.com/download/1/2/2/12246417-CD66-4541-B32B-8CD18E92AAE7/RSSolo4Spanish.zip Estas voces son de microsoft y supuestamente "free", aunque leyendo la licencia no podría asegurar que sea asi. Además están las voces de AT&T http://www.naturalvoices.att.com/ NeoSpeech http://www.neospeech.com/ que no conozco De las que he escuchado las más naturales, que realmente impresionan son las de la empresa loquendo: http://www.loquendo.com/es/ y en esta direccion tienen una demostración interactiva de la voz: http://actor.loquendo.com/actordemo/default.asp?language=es Son voces que no son gratuitas, hay que pagar, aunque la gente mala, las consigue por ahi... Luego necesitamos el conversor a .mp3 He probado el TextAloud (shareware) que ví que alguien lo puso en Taringa. A mi no me funcionó muy bien, se colgaba, etc. Yo uso un programa free que se llama Balabolka http://www.cross-plus-a.com/balabolka.htm que funciona con cualquiera de las voces arriba mencionadas. Un problema que van a tener si convierten un texto largo es que los reproductores de mp3 no permiten -al menos los que yo conozco- moverse para atrás o adelante dentro de un mismo mp3. Esto significa que si yo tengo un archivo mp3 de media hora y, por alguna razón, cambio de tema, por ejemplo porque me aburrí y puse una canción de Sabina, cuando quiera volver al texto, tengo que empezar desde el principio. La solución a esto es partir el archivo en pequeños archivos de una página, que se traducirán en mp3 de 5 minutos. En este caso, ya no tendremos tanto problema, porque o terminamos de escuchar los 5 minutos, o, cuando retomemos el texto, lo escuchamos de nuevo. Algunos programas como TExtAloud, creo que permiten ir cortando el archivo. Si no, bueno, deberemos solucionarlo a mano, en el texto o en el mp3. Otro tema a tener en cuenta es que hay que acostumbrarse a escuchar. A mi al principio me pasaba que me distraía y tenía que volver a escuchar todo, pero con el tiempo el cerebro se acostumbra y mejora la concentración. Texto a sonido en Linux Para los que tienen Linux, yo recomiendo el programa Festival http://festvox.org/ que trae una voz en español, como parte del proyecto. A la vez, se pueden instalar dos voces creadas por la Junta de Andalucía http://forja.guadalinex.org/repositorio/frs/?group_id=21 que están bastante buenas, aunque no llegan a la calidad de las loquendo de windows. Hay también otro proyecto, MBROLA http://tcts.fpms.ac.be/synthesis/mbrola.html pero la verdad es que no pude instalarlas con Festival. Existe también IRCHA, pero no lo probé En fin, es todo. Si les interesa el tema acá tiene dos entradas a la wikipedia que explican un poco más la teoría de las voces sintéticas. Si hay interés puedo hacer un segundo post explicando a fondo la instalación de festival en linux. Pablo

Pdf a texto en linux (ubuntu).

LinuxporAnónimo7/22/2010

Pdf a texto en linux (ubuntu). En linux es muy fácil manipular archivos pdf, hay una serie de programas que desde la consola nos permiten "abrir" un pdf y extraer tanto texto como imágenes: Todos ellos están en los "poppler-utils". Si al entrar a la consola y escribir el nombre del programa te dice que no existe lo tenés que instalar desde el gestor de paquetes synaptic (systema, administración) o con cualquier método alternativo de instalación de progrmas. Estos son: pdftotext convierte pdf a texto plano. pdftohtml convierte el pdf en un archivo html (para ser leído por un navegador como firefox) pdfinfo entrega toda la info sobre el pdf pdffonts nos dice las fuentes (letras) que vienen con el pdf y ademas pdftoabw pdftops y pdftoppm convierten a otros formatos. Uso de pdftotext pdftotext kamasutra.pdf kamasutra.txt El ejemplo que sigue muestra como indicarle entre qué páginas convertir (f=first, l=last): pdftotext -f 5 -l 17 kamasutra.pdf kamasutra.txt pdftotext -layout kamasutra.pdf kamasutra.txt Esta opción mantiene, tanto como sea posible, el aspecto original de la hoja de texto. Esto puede traer problemas ya que si el texto tiene más de una columna el programa ubicará los textos tal como están en la página con lo cual la información quedará mezclada. La opción -raw en cambio, deja el texto en el orden de lectura. La opción -htmlmeta genera un archivo html simple, con el contenido del pdf. En otro post más sobre pdf, cómo hacer cuando el pdf sólo contiene scans de texto. pablo

ocr en linux

LinuxporAnónimo7/23/2010

Ocr en linux Cuando escaneamos la página de un libro, se graba en la compu una imagen, como una foto de esa página, generalmente en formato .jpg. Esto significa que no podemos hacer sobre esa imagen las operaciones básicas de procesamiento de texto como borrado de caracteres, copiado, pegado, indentación, etc., simplemente porque es una imagen. Si lo abrimos con un procesador de textos, deberá ser uno que soporte imágenes y no admitirá ninguno de los procedimientos antes mencionados. Para que esa imagen se tranforme en un archivo de texto (de un .jpg a un .txt, .rtf, .doc, o lo que sea) necesitamos hacer reconocimiento óptico de caracteres(OCR) que es el proceso por el cual un programa de ocr leerá la imagen y reconocerá que ese rendondelito es una "o", ese palito una "I", etc. En Windows existe un magnífico programa, Abbyy Fine Reader, que permite hacer esto de una manera simple y automática. En linux, como siempre, tenemos varias opciones. La que voy a explicar se hace desde la consola, y requiere un poco de trabajo, pero, también nos otorga bastante control sobre lo que queremos hacer. Ingredientes nesarios: -tesseract-ocr -teseract-ocr-spa -imagemagick Suelen venir instalados en ubuntu, pero sin no te vino, ya sabés: sistema, administración, gestor de paquetes synaptic (o la manera que vos tengas de instalar paquetes). Tesseract El programa en cuestión se llama tesseract y tiene una sintaxis bastante simple: tesseract elcastillo.tif elcastillo -l spa Produce un archivo de texto elcastillo.txt Como pueden ver el archivo de imagen no es un .jpg sino un .tif con lo cual si tenemos un .jpg hay que convertirlo. Para eso usaremos un programa que forma parte del paquete de manipulación de imágenes imagemagick y se llama convert. En este caso, la sintaxis para la conversión es: convert elcastillo.jpg elcastillo.tif Si tenemos un libro escaneado lo mejor será colocar todos los .jpg en una carpeta y correr estas sentencias que recorren toda la carpeta y se ejecutan: for k in $(ls *.jpg); do convert $k $k.tif; done Con lo cual aplicamos la orden convert con extensión .tif a todas las imágenes .jpg de la carpeta. Una vez que tenemos los tif, corremos lo siguiente: for i in *.tif;do tesseract $i $i -l spa; done que significa , correr el ocr (tesseract) sobre todos los .tif que haya en esa carpeta. De esta manera nos quedarán archivos individuales elcastillo001.jpg.tif.txt (que son archivos de texto). Como verás no es tan simple como otras cosas pero en el medio aprender a hacer varias cosas. Para ampliar temas: Sobre ocr: http://es.wikipedia.org/wiki/OCR Manual del excelente gestos de imágenes de consola imagemagick http://www.rpublica.net/imagemagick/ Suerte pablo