Conversor PDF - HTML

Linux•11/15/2009

#conversor #pdf a html #pdftohtml #pdf html #poppler-utils

PDFTOHTML

Conversor de archivos PDF a HTML, ideal para extraer sólo texto.

Primero hace falta instalar "poppler-utils":

sudo aptitude -r install poppler-utils

Para convertir los archivos usamos la herramienta "pdftohtml"

Sintáxis:

pdftohtml [opción] [nombre archivo.pdf] [nombre archivo.html]

Estas son las opciones disponibles:
-h, -help - Show summary of options.
-f - first page to print
-l - last page to print
-q - don’t print any messages or errors
-v - print copyright and version info
-p - exchange .pdf links with .html
-c - generate complex output
-i - ignore images
-noframes - generate no frames. Not supported in complex output mode.
-stdout - use standard output
-zoom - zoom the pdf document (default 1.5)
-xml - output for XML post-processing
-enc - output text encoding name
-opw - owner password (for encrypted files)
-upw - user password (for encrypted files)
-hidden - force hidden text extraction
-dev - output device name for Ghostscript (png16m, jpeg etc)
-nomerge - do not merge paragraphs
-nodrm - override document DRM settings

Ejemplo:

pdftohtml prueba.pdf prueba.html

Si quieren que aparezcan las imágenes hay que usar la opción "-c":

pdftohtml -c prueba.pdf prueba.html

FUENTE

Datos archivados del Taringa! original

0puntos

1,429visitas

0comentarios

Actividad nueva en Posteamelo

0puntos

4visitas

0comentarios

Dar puntos:

Conversor PDF - HTML

Dejá tu comentario

Autor del Post