Para ver el contenido de pdfs de texto en una terminal se puede usar el comando pdftohtml y luego abrir el fichero con lynx.

Una forma más rudimentaria y que no necesita tener instalado un navegador web por terminal es transformarlo a texto. Con el comando pdftotext podemos extraer el texto de pdfs que no sean escaneados.

$ pdftotext <fichero>

Pero hay algunos pdf que muestran datos tabulados.

Datos tal como se ven en el pdf

Depende de cómo se transformara el documento en origen, esos datos no se guardan en el pdf en el órden de lectura, sino en columnas. De esta manera, el texto resultante de la transformación es ilegible y no se puede, por ejemplo, hacer grep en él.

Así se ven en un editor de texto.

Pero pdftotext tiene la opción -layout que intenta trasformar tal cual se ve, no en el orden en que están en el pdf.

$ pdftotext -layout <fichero>

Resultado correcto visto en un editor de texto.

Tagged with:
 

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *