Extrayendo texto de un PDF con Apache Tika

Apache Tika es una librería capaz de detectar y extraer metadatos y contenido textual estructurado de varios tipos de documentos usando librerías de parseado.

En este ejemplo se muestra como extraer el texto de un PDF:

Deja un comentario