PDFTOHTML
Conversor de archivos PDF a HTML, ideal para extraer sólo texto.
Primero hace falta instalar "poppler-utils":
sudo aptitude -r install poppler-utils
Para convertir los archivos usamos la herramienta "pdftohtml"
Sintáxis:
pdftohtml [opción] [nombre archivo.pdf] [nombre archivo.html]
Estas son las opciones disponibles:
-h, -help - Show summary of options.
-f - first page to print
-l - last page to print
-q - don’t print any messages or errors
-v - print copyright and version info
-p - exchange .pdf links with .html
-c - generate complex output
-i - ignore images
-noframes - generate no frames. Not supported in complex output mode.
-stdout - use standard output
-zoom - zoom the pdf document (default 1.5)
-xml - output for XML post-processing
-enc - output text encoding name
-opw - owner password (for encrypted files)
-upw - user password (for encrypted files)
-hidden - force hidden text extraction
-dev - output device name for Ghostscript (png16m, jpeg etc)
-nomerge - do not merge paragraphs
-nodrm - override document DRM settings
Ejemplo:
pdftohtml prueba.pdf prueba.html
Si quieren que aparezcan las imágenes hay que usar la opción "-c":
pdftohtml -c prueba.pdf prueba.html
FUENTE