Apache Tika

Apache Tika es una librería capaz de detector y extraer metadatos y contenido textual estructurado de varios tipos de documentos usando librerías de parseado.

Soporta formatos:

· HyperText Markup Language

· XML and derived formats

· Microsoft Office document formats

· OpenDocument Format

· Portable Document Format

· Electronic Publication Format

· Rich Text Format

· Compression and packaging formats

· Text formats

· Audio formats

· Image formats

· Video formats

· Java class files and archives

· The mbox format

Deja un comentario