Как извлечь из PDF текст и картинки

Иногда пользователи Linux сталкиваются с ситуацией, когда необходимо извлечь из файла в формате PDF изображения или текст. Помочь в этом может комплект программ Poppler Utils.

[TOC Достать текст и картинки из PDF]

Установка Poppler Utils

Введите с терминала следующую строку:

sudo apt-get install poppler-utils

Теперь пользователю, решившему распотрошить PDF, доступны две команды: pdfimages и pdftotext.

pdfimages

Программа pdfimages извлекает из PDF-файла все доступные картинки и сохраняет их в заданной пользователем директории. По умолчанию используется относительно редкий формат PPM. Чтобы заставить программу сохранять изображения в JPG следует указать ключ «-j»:

pdfimages -j pdffile.pdf ~/pdfimages/

Программа сохранит все картинки из файла pdffile.pdf в формате JPG в директорию pdfimages.

pdftotext

Эта программа найдет внутри PDF-файла весь текст и сохранит его в формате TXT. Формат использования следующий:

pdftotext pdffile.pdf

Будет создан файл pdffile.txt, содержащий текст из pdffile.pdf.

Следует отметить, что программа извлекает только доступную текстовую информацию. Если текст в PDF сохранен в виде изображения, то тогда потребуются другие программы, умеющие распознавать образы (OCR).

Извлечение текста и картинок из PDF
Пример картинки, извлеченной из PDF-файла с помощью программы pdfimages

field_vote: 
Ваша оценка: Нет Средняя: 5 (3 оценки)
Главная тема: 
Программное обеспечение: 
Пользовательские теги: 
PDF

Комментарии

Иногда пользователи Linux сталкиваются с ситуацией, когда необходимо извлечь из файла в формате PDF изображения или текст.

Это чтоб pdf-форму заполнить? )

Если текст в PDF сохранен в виде изображения, то тогда потребуются другие программы, умеющие распознавать образы (OCR).

Вот здесь можно было бы добавить примеры (Cuneiform).
P. S. А что, теперь к каждой статье будет прилагаться картинка вольного содержания? Ви хотите поднять популярность ресурса в кругах активных линуксоидов? ) А свои варианты можно предлагать? Я бы добавлял что-нибудь из жизни индийской секты Агхори. )

Оценка: 
Пока без оценки

Предлагающих тут вечно очереди выстраиваются. Требуются не предлагающие, а делающие. Зарегистрируйтесь, получите личный блог и там можете любые полотна вывешивать. ;)

Оценка: 
Средняя: 5 (1 оценка)

+ 100500 к призраку

так вот заради чего ввелаь возможность вешать картинки
может ну его а ? а то блин медленно но верно идет движуха в сторону глянцевого журнала

Оценка: 
Пока без оценки

Выношу тему на обсуждение http://liberatum.ru/forum/kartinki-na-liberatume ;)

Оценка: 
Пока без оценки

Картинки у вас на сайте вообще в тему ;) вкусно

Оценка: 
Пока без оценки

Комментировать

Filtered HTML

  • Use [fn]...[/fn] (or <fn>...</fn>) to insert automatically numbered footnotes.
  • Доступны HTML теги: <a> <em> <strong> <cite> <code> <ul> <ol> <li> <dl> <dt> <dd> <blockquote> <strike> <code> <h2> <h3> <h4> <h5> <del> <img>
  • Адреса страниц и электронной почты автоматически преобразуются в ссылки.
  • Строки и параграфы переносятся автоматически.

Plain text

  • HTML-теги не обрабатываются и показываются как обычный текст
  • Адреса страниц и электронной почты автоматически преобразуются в ссылки.
  • Строки и параграфы переносятся автоматически.