
Apache Tika es una librería capaz de detector y extraer metadatos y contenido textual estructurado de varios tipos de documentos usando librerías de parseado.
Soporta formatos:
· HyperText Markup Language
· XML and derived formats
· Microsoft Office document formats
· OpenDocument Format
· Portable Document Format
· Electronic Publication Format
· Rich Text Format
· Compression and packaging formats
· Text formats
· Audio formats
· Image formats
· Video formats
· Java class files and archives
· The mbox format

Deja un comentario