Archiwa tagu: java

Wyodrębnianie tekstu z pliku PDF

W jednym z ostatnich projektów musiałem zmierzyć się z zagadnieniem wyodrębniania tekstu z załączanych plików PDF w celu możliwości ich późniejszego przeszukiwania. Pomocne okazało się narzędzie Apache Tika, którego użycie w aplikacji PHP zaprezentuję w tym wpisie.

Opublikowano PHP, Programowanie | Otagowano , , | Skomentuj