30 de julio de 2013

El formato PDF: algunos Mitos y Realidades

A pesar de que el formato PDF ya lleva un tiempo con nosotros (más de 20) y es por lo tanto un viejo conocido en el mundo del diseño y la preimpresión, existe todavía bastante desconocimiento sobre sus posibilidades, sobre todo ahora en la nueva era digital donde parece ser que todo ha de ser HTML (o EPUB) o no será.

Es por eso que, a pesar de no ser la primera vez ni mucho menos que abordo este tema en este blog, me dispongo a relatar un breve listado de mitos y realidades sobre el PDF en la era digital:


  • El PDF sólo sirve para imprimir, no es un formato viable de e-book: Falso. La principal razón por la que el formato EPUB está superando al PDF como formato hegemónico de comercialización de libros electrónicos es el espaldarazo de algunos fabricantes clave, como por ejemplo Apple, al formato EPUB en detrimento del PDF. Un documento PDF se puede leer perfectamente tanto en e-readers como en tablets y smartphones, tanto en modo de maquetación fija como en modo reflujo, dispone de hipervínculos, tabla de contenidos, etc. y todo lo necesario para que pueda ser una opción perfectamente válida para distribuir e-books.

  • El PDF no se adapta para la lectura en pantallas pequeñas. Falso. Recuerdo que hace diez años (antes de la era de los tablets y smartphones) yo ya leía archivos PDFs en mi pequeño PocketPC usando la app Adobe Reader (sí, la de Adobe) y ahí podía elegir si veía mis archivos en modo maquetación fija o reflujo con una sencilla opción de menú. Estamos hablando de pantallitas de 3.5 pulgadas a una resolución de 320x240 pixels !!
Muestra de un PDF en modo reflujo en Adobe Reader para PocketPC (año 2002)

La opción de poder visualizar un PDF en modo reflujo es muy antigua, pero quizás desconcida. Si dispones de Adobe Reader (desde versiones ‘inmemoriales’) tanto para Mac como para Windows, tendrás disponible una opción de Vista en Reflujo. Ello te permitirá hacer la ventana de Adobe Reader Desktop tan estrecha como quieras, que adaptará los contenidos refluyendo el texto, pero respetando las fuentes incrustadas y, por supuesto, las imágenes en su posición original.

Esta posibilidad es una funcionalidad de Adobe Reader y no del PDF, a no ser que el archivo PDF sea una mera imagen fruto de un escaneado donde no se ha querido hacer la labor de reconocimiento de texto por OCR (opción incluida en Adobe Acrobat y que tarda segundos en hacer).


La opción de vista en reflujo está en Adobe Reader (Mac/Win) desde hace años.


Cualquier archivo PDF se puede convertir en un documento accesible según los estándares ISO vigentes usando solamente Adobe Acrobat. De este modo, la documentación digital en PDF estará certificada para ser leída en voz alta con software especial para personas invidentes, además de conservar un orden de lectura adecuado para cuando los contenidos refluyan en una pantalla pequeña (e-reader, smartphone, etc.). Por ejemplo con Adobe Reader para Android es posible hacerlo de manera muy sencilla.


Captura de pantalla de Adobe Reader para Android en un Smartphone, indicando la opción que permite conmutar de la vista de maquetación fija a la vista en reflujo


La única excepción son los dispositivos móviles iOS (iPad, iPhone, iPod Touch). ¿Por qué? Cuando Apple desarrolló su sistema operativo para móviles, decidió no sacarle el máximo partido a los PDFs y tratarlos como meros gráficos vectoriales, relegándolo entonces para usos marginales al impedir o dificultar en extremo la posibilidad de que los desarrolladores de iOS pudieran crear apps que permitieran extraer los contenidos accesibles de un PDF y mostrarlos en modo reflujo. El motivo último por el cual Apple optó por esa vía no lo sabremos del todo, pero se pueden intuir...

  • No se puede extraer información de un PDF: Casi Falso. Cuando se ideó el PDF todavía era mucho antes de nuestra era actual y su fiebre del Big Data. Ahora se desea acceder, extraer y manipular fácilmente los datos que se hacen públicos. Cuando el formato elegido para ello es el PDF, se critica que es algo inaccesible, donde es difícil de sacar información purificada.
    Ciertamente no hay —que yo sepa— ninguna herramienta que permita extraer fácil y alegremente datos de párrafos o tablas dentro de un PDF. En el caso de páginas web HTML sucede algo similar. A penas ahora empiezan a ver la luz herramientas prácticas como Scraper para el navegador Google Chrome que permiten hacer este tipo de prácticas empleando tecnologías como XPath. Hasta entonces, era casi igual de complicado extraer información pública a no ser que el organismo que la ofrecía se molestara en permitir su descarga en formatos planos como el .CSV, .TAB o .XLS (Excel). Un documento PDF se puede etiquetar para hacerlo accesible en cuestión de segundos y exportarlo en una variedad de formatos, incluyendo la hoja de cálculo Excel también. 

  • El formato PDF no es óptimo para el almacenamiento a largo plazo: Falso. Precisamente una de las variantes del PDF, el estándar ISO PDF/A es el que están usando muchas bibliotecas públicas de entidad para construir un archivo definitivo de su fondo bibliográfico.
    Este formato permite guardar diseño y contenidos abiertamente en un solo documento unificado, y tiene el respaldo de ser un estándar ISO, con todo lo que ello conlleva a efectos de fiabilidad. Otros estándares de documentación electrónica más en boga hoy en día, como el EPUB, no pueden decir lo mismo y todavía adolecen de ser formatos demasiado veleidosos y sujetos a cambios e indecisiones constantes por parte de los encargados de su promoción y mantenimiento.  

Muchos expertos en documentación digital afirman con buen criterio que el candidato óptimo para ser el formato de almacenamiento digital a largo plazo debería ser el XML. Y así es, pero hay que tener en cuenta que PDF también es compatible no solamente con XML si no que algunas versiones del mismo PDF ya se almacenan directamente siguiendo este formato. 

Cabe recordar que, por ejemplo Google, tanto en su iniciativa Google Books de archivo masivo del fondo bibliográfico histórico mundial como con su tienda de e-books Play Books emplea como base el formato PDF para poder guardar tanto la información accesible (y por lo tanto, refluible) de esos libros como su aspecto gráfico original.


Con esto no quiero decir que con el PDF todo sean bondades. Existen todavía muchos hándicaps a superar en el mundo digital sobre todo y donde no parece que este formato esté haciendo los deberes a la velocidad que debería, pero eso ya será en todo caso motivo de otro post en el futuro ;-)

6 comentarios:

  1. Muy de acuerdo con casi todo, Ignacio. En realidad más que el propio formato, el problema es su implementación. Podemos etiquetar un PDF por ejemplo para hacerlo accesible (junto con otras tareas) lo cual no es tan fácil como decirle al programa que lo haga automáticamente (ni mucho menos) pero a pesar de tener el PDF etiquetado, los ereaderes por ejemplo seguirán tratándolo de la misma forma. En realidad el problema no es por tanto el formato, puesto que al final, el propio PDF al estar etiquetado es prácticamente un documento XML, sino que los programas, aparatos y demás zarandajas no han implementado esas posibilidades. Un PDF etiquetado debería bastar para tener reflujo, por ejemplo, si el ereader fuera capaz de leer ese etiquetado. Es decir, que más que quejarnos del formato, deberíamos quejarnos (como siempre) de los aparatos.

    ResponderEliminar
  2. Es posible que paralelamente a mejorar un producto, como por ejemplo el pdf; se deba mantener una simplificación que lo haga interesante y accesible, todo el mundo entonces habla de lo facil que es usar alque formato y asi se hace conocido; a nuevas versiones más tecnicismos por hinchar el documento final; un escape ha sido crear versiones como las que has mencionado PDF/A, PDF/X,.... e indicarlo bien en las aplicaciones... casi como harian en microsoft que tratan al usuario de niño que hay que darselo todo hecho y facil.
    Por cierto! en los lectores de EPUB a parte del reflujo de texto puedes indicar el tamaño de la fuente en la que quieres leer el texto ¿eso es posible en el pdf? porque no es solo reflujo de texto, sino adaptar tamaño a la capacidad de lectura de la persona.

    ResponderEliminar
  3. Valentín, los e-readers genéricos suelen llevar el software de lectura de PDFs incluido basado en Adobe Reader. Por lo tanto, aunque no estén etiquetados de origen, es el propio reader quien hace un "etiquetado sobre la marcha" y por eso la mayoría de PDFs que no son meras imágenes escaneadas pueden refluir en uno de estos e-readers, aunque el orden de lectura lógicamente no está garantizado que sea el correcto (excepto en libros de narrativa).

    Danigrafic, cuando lees un PDF en un e-reader en modo reflujo, también es posible aumentar el tamaño del texto, al igual que en un EPUB. Aunque sí es cierto que el rendimiento de ese reflujo disminuye considerablemente con el tamaño del fichero PDF, no siendo así en el caso del EPUB si éste está bien estructurado internamente.

    Saludos!

    ResponderEliminar
  4. Sí, Ignacio pero si tú etiquetas un PDF a conciencia y fijas el orden de lectura también a conciencia, el resultado en el ereader es el mismo que si no lo hicieras, es decir, no aprovecha esa información para gestionar mejor el reflujo del texto. Por ejemplo si tú en el PDF juntas (etiquetándolo en uno solo) las partes de un párrafo que está partido al final de una página siguiendo en la siguiente, en la lectura en el ereader lo seguirá partiendo como si fueran dos párrafos.

    ResponderEliminar
  5. Valentín, no se si hayas visto un pequeño tutorial que colgué hace años, aquí: http://www.youtube.com/watch?v=Ff6cEOf3Co4

    Pero ahí explicaba cómo retocar el orden de lectura en PDFs para que luego refluyeran adecuadamente en un e-reader genérico...

    ResponderEliminar
  6. Pues la verdad es que no, lo miro ahora mismo, porque yo en su día hice pruebas y el resultado no fue muy satisfactorio pero la verdad es que tampoco le di muchas más vueltas. Muchas gracias.

    ResponderEliminar

Consulteu aquí la versió en català d'aquest blog