GScan2Pdf — объединяющий графический интерфейс к множеству инструментов для обработки сканов документов в системах GNU/Linux.
GScan2Pdf работает со сканерами, используя подсистему SANE.
С помощью этого приложения можно сканировать, импортировать изображения документов, распознавать текст и экспортировать отсканированные документы в файлы PDF или DjVu. Конечный документ можно сохранить в формате PDF, DjVu, TIFF (многостраничном) или графическом формате одностраничного изображения.
Графический интерфейс GScan2Pdf объединяет отдельные самостоятельные программы для сканирования, распознавания текста или выполнения других функций обработки документов.
GScan2Pdf предоставляет интерфейс для склейки сканов и текстовых слоёв в многостраничные документы форматов PDF, DJVU. К сожалению, экспорт в тестовые редактируемые форматы DOC или ODT, как в аналоговой программе Fine Reader, не осуществляется.
Для распознавания символов GScan2Pdf может подключать различные движки распознавания текста. По умолчанию используется распознавалка Tesseract. Для поддержки кириллицы нужно установить пакет tesseract-ocr-rus.
Можно использовать и систему Cuneiform, которая, что немаловажно, распознаёт кириллицу, так как является российской разработкой. Но Cuneiform — только движок распознавания текста и не имеет предварительного модуля подготовки изображения к распознаванию символов. Эту подготовку нужно производить самостоятельно.
GScan2Pdf включает в себя минимальный набор инструментов для первоначальной обработки изображений. Но этого будет, как правило, недостаточно, чтобы подготовить к распознаванию картинку документа с текстом, сделанную не сканером, а фотокамерой. Редактор Gimp тоже желательно иметь под рукой при работе с GScan2Pdf.
В принципе можно обойтись и без GScan2Pdf, используя для создания цифровых копий бумажных документов программы по отдельности: Xsane, GIMP, Tesseract, Cuneiform, Scan Tailor и другие самостоятельные инструменты. Но в GScan2Pdf эта работа будет более комфортна. Все нужные операции по созданию многостраничных электронных документов можно выполнять, не выходя из окна приложения, в котором имеются панель миниатюр отсканированных страниц и специальная вкладка для создания и коррекции текстового слоя к файлам PDF и Djvu.
Установить приложение можно из репозитория
ppa:jeffreyratcliffe/ppa для Ubuntu 12.04-17.10 и производных
sudo add-apt-repository ppa:jeffreyratcliffe/ppa -y
sudo apt update
sudo apt install gscan2pdf tesseract tesseract-ocr-rus djvulibre-bin unpaper libimage-sane-perl libsane-perl