Печать страницы - Распознавание текста из сканированных изображений

Программное обеспечение => Офис => Тема начата: ivm от 17 Августа 2015, 15:41:06

Название: Распознавание текста из сканированных изображений
Отправлено: ivm от 17 Августа 2015, 15:41:06

Долгое время меня упрекали, что в линуксе нет хорошей программы для распознания сканированного текста. В 14.04 (TT) наконец-таки появилась очень хорошая распознавалка Yagf c языковым пакетом tesseract-ocr-rus. Устанавливается так

Код: [Выделить]

sudo apt-get install yagf tesseract-ocr-rus Мне пришлось распознавать отсканированный газетный текст с ксерокопии качества ниже среднего, много черноты. Программа справилась замечательно. Особо отмечу очистку изображения перед распознанием. В принципе всё интуитивно понятно: выделил фрагмент текста, распознал и текстовый вариант отразился на второй половине окна. Поскольку мне пришлось работать со сканом газеты я открыл два экземпляра приложения на разных столах, поочерёдно распознавая то начало, то конец столбца.
В винде такое файнридер точно не позволит.

Название: Re: Распознавание текста из сканированных изображений
Отправлено: vita от 17 Августа 2015, 15:41:53

Мне понравилось пользоваться линуксовыми средствами Yagf Tesseract. Изрядно помогает при оцифровке/распознанию текста, особенно выполненного на компьютере. Правда, где на тексте размещена графика, приходится восстанавливать текст вручную, считывая его на графическом варианте, расположенном слева. В программе это делать вполне удобно. По поводу форматирования мне как раз лучше его отсутствие, легче потом его выполнить в офисном документе. Текстовые блоки выделяются нормально, можно распознавать по выделенному абзацу.
Одним словом, очень полезное приложение.

Название: Re: Распознавание текста из сканированных изображений
Отправлено: ivm от 17 Августа 2015, 15:42:35

Нашёл ещё одно применение YAGF. Как уже рассказывал, текст достался мне в виде некачественной ксерокопии статьи из газеты. Тёмно-серый фон... "Здесь читаем-здесь не читаем-здесь селёдку заворачивали..." (грустная шутка). Что текст распознала - это одно. Нужно было сохранить оригинал без распознания, но который будет нормально читаться. Для этого воспользовался функцией - подготовить к распознанию, после чего выполнил очищение всех блоков (снять выделение блоков для распознания) и из меню файл сохранил изображение под новым именем. Результат очень даже приличный!

Название: Re: Распознавание текста из сканированных изображений
Отправлено: vita от 17 Августа 2015, 15:43:46

Цитата: ivm от 17 Августа 2015, 15:42:35

Нашёл ещё одно применение YAGF.

Спасибо! Очень даже пригодилось для улучшения качества исходного документа. Просветление в прямом и переносном смысле :)

Название: Re: Распознавание текста из сканированных изображений
Отправлено: В. Юрганов от 21 Сентября 2015, 07:06:59

тэкс ))
поставил FienReader8, который Игорь предоставлял. Даже им пользовался.
однако замечу, что так как в нем отсуствует кнопочка "Передать все страницы в Word" по причине отсуствия ворда, приходится передавать в в буфер и оттуда вставлять в офис.

В LibreOffive всегда вставлялся нормально, а вот в WPS - в виде каких то лаосских (как я понял) каракуль, и я не нашел где поменять.

Тут принесли методичку в PDF. Распозналась она нормально, чуток подправил, где были таблицы.
В WPS всё так же вставлось, каракулями.
А вот в либру отказалось вставляться. Файнридер пишет Создание текста в формате Unicode
потом перехожу в офис и жму CTRL-V и получаю в ответ от либры - Запрошенный формат буфера обмена недоступен.
никогда не сталкивался с проблемами буфера обмена, я в шоке.

Собственно и вопроса два
1) как вместо каракуль получить текст в WPS. Думаю элементарно, но туплю я.
2) как обмануть буфер обмена и связанные с ним проблемы

я обошел это, выбрал вставить неформатированный текст, но руководство очень недовольно, что надо его форматировать

Название: Re: Распознавание текста из сканированных изображений
Отправлено: vita от 21 Сентября 2015, 10:13:00

Не знаю, что с буфером обмена в Вашем случае, проверила копирование текста из сохранённой в PDF вебстранички и вставила часть скопированного из буфера в WPS Writer и затем в LibreOffise Writer.
В обоих случаях текст вставился и читаем. Скорее всего, проблемы с самим FienReader8 или Wine.
Попробуйте выполнить те же действия в Windows и сохраните результаты в в формате .doc MSO 2003.

Название: Re: Распознавание текста из сканированных изображений
Отправлено: ivm от 21 Сентября 2015, 10:20:47

Цитата: В. Юрганов от 21 Сентября 2015, 07:06:59

поставил FienReader8, который Игорь предоставлял.

Володя, извините, но я Вам ничего не предоставлял

Спойлер

просто помог найти в сети то, что Вы не могли найти. Но после этой фразы помогать и общаться с Вами не хочется.
Из-за таких как Вы в 37-м миллионы расстреляли.

Название: Re: Распознавание текста из сканированных изображений
Отправлено: BaaTLT от 23 Октября 2015, 11:21:57

Ответ службы поддержки ABBYY по поводу работы FineReader в Linux. Сами подталкивают к обходным вариантам.

Спойлер

Добрый день.
Мною куплена версия FineReader 12 Professional, но она не работает под Linux через Wine. Можно ли купить у Вас FineReader 8.0 Professional? Она очень хорошо работает в Linux через Wine. Это единственная программа, которая сдерживает полное удаление Windows с моего компьютера.

23.10.2015 7:40 Техническая поддержка

Добрый день, Алексей!

Благодарим Вас за интерес к программным продуктам компании ABBYY!

К сожалению, в соответствии с политикой нашей компании, как только в свет выходит новая версия продукта, все предыдущие снимаются с производства и реализации. Текущая версия ABBYY FineReader - ABBYY FineReader 12. В связи с этим, версия ABBYY FineReader 8.0 на данный момент не доступна для покупки.

Что касается установки ABBYY FineReader на устройство с ОС Linux, пожалуйста, обратите внимание на то, что программы для разных ОС разрабатываются и приобретаются отдельно. Поскольку ОС Linux не заявлена всистемных требованиях, мы не можем гарантировать корректную работу программы на устройстве с данной ОС.

К сожалению, на данный момент у нас нет готового продукта, аналогичного ABBYY FineReader 12, для устройств на базе Linux ОС.

Для решения Вашей задачи мы можем порекомендовать Вам онлайн-сервис ABBYY FineReader Online. Подробнее о возможностях сервиса Вы можете узнать здесь: http://finereaderonline.com/ru-ru/Help/Recognition.

При регистрации Вы получите возможность распознать и перевести 10 страниц текста. Бесплатный тариф также предполагает возможность распознавания и перевода до 5 страниц текста в месяц. Подробнее о тарифных планах Вы можете узнать здесь: https://finereaderonline.com/ru-ru/Store.

Если у Вас возникнут дополнительные вопросы, мы будем рады на них ответить!

С уважением,

Служба по работе с клиентами

Название: Re: Распознавание текста из сканированных изображений
Отправлено: vita от 19 Марта 2016, 08:33:15

gImageReader - программа для распознавания текста (GUI Tesseract). Система оптического распознавания символов (текста) Tesseract обычно используется для конвертации сканированных книг и документов в электронный вид, поддерживает распознавание множества языков (включая русский, с версии 3.0), имеется поддержка UTF-8 (кодировка реализующая представление Юникода).
Интерфейс программы gImageReader русский. Можно применять без подключённого сканера и распознавать текст из имеющегося снимка.
Устанавливается программа из репозитория:

Код: [Выделить]

sudo add-apt-repository ppa:sandromani/gimagereader -y

Код: [Выделить]

sudo apt-get update

Код: [Выделить]

sudo apt-get install gimagereaderДополнительно устанавливаются необходимые для распознавания языковые пакеты Tesseract.

Возможности программы gImageReader:

Поддержка распознавание множества языков, в том числе русский;
Имеется поддержка UTF-8;
Поддержка изображений для распознавания текста форматов: jpeg, png, tiff, gif, pnm, pcx, bmp;
Есть возможность повысить яркость и контрастность изображения, изменить угол наклона;
Можно распознавать весь текст на изображении, так и выделенный участок;
gImageReader позволяет редактировать текстовое содержимое;
Имеется возможность проводить проверку орфографии;
Сохраняется распознанный текст в файле формата TXT;
Получение изображения напрямую со сканера;
Поддержка формата электронных документов PDF. Возможность выбрать отдельные страницы и диапазон страниц для распознавания.

Установка и работа программы gImageReader проверена в Matuntu-TW64-M112.

Название: Re: Распознавание текста из сканированных изображений
Отправлено: vita от 01 Ноября 2018, 12:25:53

Программа Gimagereader на GTK версии 3.2.3 от 2017 года включена в основной репозиторий Ubuntu 18.04 LTS. Но в связи с новостью о релизе (http://www.opennet.ru/opennews/art.shtml?num=49534) системы оптического распознавания текста Tesseract 4.0, решила в осенней Matuntu-B64 посмотреть, как с обновлённым Tesseract-ом работает из репозитория ppa:sandromani/gimagereader (https://launchpad.net/~sandromani/+archive/ubuntu/gimagereader) справится новый Gimagereader-Qt, выпущенный 26 сентября нынешнего года.
(https://i.imgur.com/wu2U5vC.png)
Оказалось, что на Qt5 программа не способна распознавать текст.
Установила Gimagereader-GTK
(https://i.imgur.com/hibtgZ4.png)
С помощью Gimagereader-GTK нормально распознан и сохранён текст из отсканированного изображения. Через буфер обмена вставила его в китайский офис версии 10.1.0.6757 и привела к виду оригинального документа.

Название: Re: Распознавание текста из сканированных изображений
Отправлено: ivm от 02 Декабря 2021, 02:00:07

Состоялся релиз системы оптического распознавания текста Tesseract 5.0 (https://tesseract-ocr.github.io/), поддерживающей распознавание символов UTF-8 и текстов на более чем 100 языках, включая русский, казахский, белорусский и украинский. Результат может сохраняться как открытым текстом, так и в форматах HTML (hOCR), ALTO (XML), PDF и TSV. Изначально система была создана в 1985-1995 годах в лаборатории компании Hewlett Packard, в 2005 году код был открыт под лицензией Apache и в дальнейшем развивался при участии работников компании Google. Исходные тексты проекта распространяются под лицензией Apache 2.0.

Цитата: Опеннет

Tesseract включает в себя консольную утилиту и библиотеку libtesseract для встраивания функций распознавания текста в другие приложения. Из поддерживающих Tesseract сторонних GUI-интерфейсов можно отметить gImageReader, VietOCR и YAGF. Предлагается два движка распознавания: классический, распознающий текст на уровне шаблонов отдельных символов, и новый, базирующийся на применении системы машинного обучения на базе рекуррентной нейронной сети LSTM, оптимизированной для распознавания целиком строк и позволяющей добиться существенного увеличения точности. Готовые натренированные модели опубликованы для 123 языков. Для оптимизации производительности предлагаются модули, использующие OpenMP и SIMD-инструкций AVX2, AVX, NEON или SSE4.1.

Источник новости (https://www.opennet.ru/opennews/art.shtml?num=56259)

Форум проекта Matuntu

Программное обеспечение => Офис => Тема начата: ivm от 17 Августа 2015, 15:41:06