Wydobywanie obrazów oraz tekstu z plików PDF

Uwaga: Ten wpis został utworzony ponad rok temu. Informacje w nim zawarte mogą być nieaktualne!

Aby wydobyć obrazy oraz teksty z plików PDF, skorzystaj z narzędzi dostępnych dzięki pakietowi poppler-utils:

sudo apt-get install poppler-utils

Wydobywanie obrazów z plików PDF

Do wydobycia obrazów z pliku PDF użyj narzędzia pdfimages:

pdfimages -j /ścieżka/do/pliku/pdf /ścieżka/do/katalogu/w/którym/znajdą/się/obrazy

np.:

pdfimages -j ~/Programowanie/GWT/DB-Access-in-GWT-The-Missing-Tutorial.pdf ~/Programowanie/GWT/

Parametr -j oznacza, że obrazy zostaną zapisane jako pliki JPEG (bez tego parametru byłby to plik PBM lub PPM).

Dodatkowo możesz skorzystać z dwóch parametrów:

  • -f – strona, od której rozpocznie się wydobywanie obrazków (pierwsza),
  • -l – strona, na której zakończy się wydobywanie obrazków (ostatnia).

Wydobywanie tekstu z plików PDF

Aby wydobyć tekst z plików PDF skorzystaj z narzędzia pdftotext:

pdftotext /ścieżka/do/pliku/pdf /ścieżka/do/katalogu/w/którym/znajdzie/się/plik/tekstowy

np.:

pdftotext DB-Access-in-GWT-The-Missing-Tutorial.pdf

(brak ścieżki zapisu sprawi, że plik znajdzie się w bieżącym katalogu).
Aby zapisać tekst z konkretnych stron, skorzystaj z tych samych parametrów, co w przypadku obrazów.

Wydobywanie obrazów oraz tekstu z plików PDF

Plik tekstowy z treścią pliku PDF

Jeżeli powyższy artykuł nie rozwiązał lub rozwiązał częściowo Twój problem, dodaj swój komentarz opisujący, w którym miejscu napotkałeś trudności.
Mile widziane komentarze z uwagami lub informacjami o rozwiązaniu problemu.
  • ARNi

    W druga strone
    convert *.jpeg images.pdf – tworzy prosty PDF ze wszystkimi obrazkami

    pdftk – ma chyba większą funkcjonalność ,np .
    pdftk example.pdf burst output Pages/Page03%d.pdf – rozbija PDFa na osobne dokumenty po 1 stronie na dokument i zapisuje je w katalogu Pages; pliki będą miały nazwy Page000.pdf, Page001.pdf itd.

  • etmoon

    Bardzo ciekawe i przydatne narzędzia. Niestety mi po dodaniu opcji -j zapisuje nadal obrazki w PPM lub PBM.

  • Czesław

    Aby zamienić pdf na jpg można otworzyć pdf w GIMPie i zapisać jako jpg. :) , ale to dłuższa droga …

  • etmoon

    Tak właśnie robiłem w swoim licencjacie jak chciałem dodać jakiś wykres do niego. Obróbka w Gimpie nie była najprzyjemniejszym zadaniem. Dlatego ucieszyłem się, że w trybie tekstowym można to tak łatwo wydostać. Szkoda, że mi nie zapisuje obrazków w jpg, ale zawsze można zastosować konwersję na inny format.