Автор Тема: Распознавание текста из сканированных изображений  (Прочитано 18927 раз)

Оффлайн ivm

  • Ветеран
  • *****
  • Сообщений: 3072
  • Что бы ни случилось, всё будет хорошо!
Долгое время меня упрекали, что в линуксе нет хорошей программы для распознания сканированного текста. В 14.04 (TT) наконец-таки появилась очень хорошая распознавалка Yagf  c языковым пакетом tesseract-ocr-rus. Устанавливается так sudo apt-get install yagf tesseract-ocr-rus Мне пришлось распознавать отсканированный газетный текст с ксерокопии качества ниже среднего, много черноты. Программа справилась замечательно. Особо отмечу очистку изображения перед распознанием. В принципе всё интуитивно понятно: выделил фрагмент текста, распознал и текстовый вариант отразился на второй половине окна. Поскольку мне пришлось работать со сканом газеты я открыл два экземпляра приложения на разных столах, поочерёдно распознавая то начало, то конец столбца.
В винде такое файнридер точно не позволит.

Оффлайн vita

  • Глобальный модератор
  • Ветеран
  • *****
  • Сообщений: 4788
  • Да будет свет!
Мне понравилось пользоваться линуксовыми средствами Yagf Tesseract. Изрядно помогает при оцифровке/распознанию текста, особенно выполненного на компьютере. Правда, где на тексте размещена графика, приходится восстанавливать текст вручную, считывая его на графическом варианте, расположенном слева. В программе это делать вполне удобно. По поводу форматирования мне как раз лучше его отсутствие, легче потом его выполнить в офисном документе. Текстовые блоки выделяются нормально, можно распознавать по выделенному абзацу.
Одним словом, очень полезное приложение.
Делай с нами, делай как мы, делай лучше нас!

Оффлайн ivm

  • Ветеран
  • *****
  • Сообщений: 3072
  • Что бы ни случилось, всё будет хорошо!
Нашёл ещё одно применение YAGF. Как уже рассказывал, текст достался мне в виде некачественной ксерокопии статьи из газеты. Тёмно-серый фон... "Здесь читаем-здесь не читаем-здесь селёдку заворачивали..." (грустная шутка). Что текст распознала - это одно. Нужно было сохранить оригинал без распознания, но который будет нормально читаться. Для этого воспользовался функцией - подготовить к распознанию, после чего выполнил очищение всех блоков (снять выделение блоков для распознания) и из меню файл сохранил изображение под новым именем. Результат очень даже приличный!

Оффлайн vita

  • Глобальный модератор
  • Ветеран
  • *****
  • Сообщений: 4788
  • Да будет свет!
Нашёл ещё одно применение YAGF.
Спасибо! Очень даже пригодилось для улучшения качества исходного документа. Просветление в прямом и переносном смысле  :)
Делай с нами, делай как мы, делай лучше нас!

Оффлайн В. Юрганов

  • Постоялец
  • ***
  • Сообщений: 152
тэкс ))
поставил FienReader8, который Игорь предоставлял. Даже им пользовался.
однако замечу, что так как в нем отсуствует кнопочка "Передать все страницы в Word" по причине отсуствия ворда, приходится передавать в в буфер и оттуда вставлять в офис.

В LibreOffive всегда вставлялся нормально, а вот в WPS - в виде каких то лаосских (как я понял) каракуль, и я не нашел где поменять.

Тут принесли методичку в PDF. Распозналась она нормально, чуток подправил, где были таблицы.
В WPS всё так же вставлось, каракулями.
А вот в либру отказалось вставляться. Файнридер пишет Создание текста в формате Unicode
потом перехожу в офис и жму CTRL-V и получаю в ответ от либры - Запрошенный формат буфера обмена недоступен.
никогда не сталкивался с проблемами буфера обмена, я в шоке.

Собственно и вопроса два
1) как вместо каракуль получить текст в WPS. Думаю элементарно, но туплю я.
2) как обмануть буфер обмена и связанные с ним проблемы

я обошел это, выбрал вставить неформатированный текст, но руководство очень недовольно, что надо его форматировать

Оффлайн vita

  • Глобальный модератор
  • Ветеран
  • *****
  • Сообщений: 4788
  • Да будет свет!
Не знаю, что с буфером обмена в Вашем случае, проверила копирование текста из сохранённой в PDF  вебстранички и вставила часть скопированного из буфера в WPS Writer и затем в LibreOffise Writer.
В обоих случаях текст вставился и читаем. Скорее всего, проблемы с самим FienReader8 или Wine.
Попробуйте выполнить те же действия в Windows и сохраните результаты в в формате .doc MSO 2003.
« Последнее редактирование: 02 Декабря 2021, 01:54:58 от vita »
Делай с нами, делай как мы, делай лучше нас!

Оффлайн ivm

  • Ветеран
  • *****
  • Сообщений: 3072
  • Что бы ни случилось, всё будет хорошо!
поставил FienReader8, который Игорь предоставлял.
Володя, извините, но я Вам ничего не предоставлял
Спойлер
просто помог найти в сети то, что Вы не могли найти. Но после этой фразы помогать и общаться с Вами не хочется.
Из-за таких как Вы в 37-м миллионы расстреляли.

Оффлайн BaaTLT

  • Постоялец
  • ***
  • Сообщений: 190
  • Выключи компьютер и живи!
Ответ службы поддержки ABBYY по поводу работы FineReader в Linux. Сами подталкивают к обходным вариантам.
Спойлер
Добрый день.
Мною куплена версия FineReader 12 Professional, но она не работает под Linux через Wine. Можно ли купить у Вас FineReader 8.0 Professional? Она очень хорошо работает в Linux через Wine. Это единственная программа, которая сдерживает полное удаление Windows с моего компьютера.

23.10.2015 7:40 Техническая поддержка

Добрый день, Алексей!

 

Благодарим Вас за интерес к программным продуктам компании ABBYY!

 

К сожалению, в соответствии с политикой нашей компании, как только в свет выходит новая версия продукта, все предыдущие снимаются с производства и реализации. Текущая версия ABBYY FineReader - ABBYY FineReader 12. В связи с этим, версия ABBYY FineReader 8.0 на данный момент не доступна для покупки.

 

Что касается установки ABBYY FineReader на устройство с ОС Linux, пожалуйста, обратите внимание на то, что программы для разных ОС разрабатываются и приобретаются отдельно. Поскольку ОС Linux не заявлена всистемных требованиях, мы не можем гарантировать корректную работу программы на устройстве с данной ОС.

 

К сожалению, на данный момент у нас нет готового продукта, аналогичного ABBYY FineReader 12, для устройств на базе Linux ОС.

 

Для решения Вашей задачи мы можем порекомендовать Вам онлайн-сервис ABBYY FineReader Online. Подробнее о возможностях сервиса Вы можете узнать здесь: http://finereaderonline.com/ru-ru/Help/Recognition.

 

При регистрации Вы получите возможность распознать и перевести 10 страниц текста. Бесплатный тариф также предполагает возможность распознавания и перевода до 5 страниц текста в месяц. Подробнее о тарифных планах Вы можете узнать здесь: https://finereaderonline.com/ru-ru/Store.

 

Если у Вас возникнут дополнительные вопросы, мы будем рады на них ответить!

 

С уважением,

Служба по работе с клиентами


« Последнее редактирование: 23 Октября 2015, 11:27:37 от BaaTLT »

Оффлайн vita

  • Глобальный модератор
  • Ветеран
  • *****
  • Сообщений: 4788
  • Да будет свет!
gImageReader - программа для распознавания текста (GUI Tesseract). Система оптического распознавания символов (текста) Tesseract обычно используется для конвертации сканированных книг и документов в электронный вид, поддерживает распознавание множества языков (включая русский, с версии 3.0), имеется поддержка UTF-8 (кодировка реализующая представление Юникода).
Интерфейс программы gImageReader русский. Можно применять без подключённого сканера и распознавать текст из имеющегося снимка.
Устанавливается программа из репозитория: sudo add-apt-repository ppa:sandromani/gimagereader -y sudo apt-get update sudo apt-get install gimagereaderДополнительно устанавливаются необходимые для распознавания языковые пакеты Tesseract.

                       Возможности программы gImageReader:
  • Поддержка распознавание множества языков, в том числе русский;
  • Имеется поддержка UTF-8;
  • Поддержка изображений для распознавания текста форматов: jpeg, png, tiff, gif, pnm, pcx, bmp;
  • Есть возможность повысить яркость и контрастность изображения, изменить угол наклона;
  • Можно распознавать весь текст на изображении, так и выделенный участок;
  • gImageReader позволяет редактировать текстовое содержимое;
  • Имеется возможность проводить проверку орфографии;
  • Сохраняется распознанный текст в файле формата TXT;
  • Получение изображения напрямую со сканера;
  • Поддержка формата электронных документов PDF. Возможность выбрать отдельные страницы и диапазон страниц для распознавания.
Установка и работа программы gImageReader проверена в Matuntu-TW64-M112.
« Последнее редактирование: 02 Декабря 2021, 01:55:43 от vita »
Делай с нами, делай как мы, делай лучше нас!

Оффлайн vita

  • Глобальный модератор
  • Ветеран
  • *****
  • Сообщений: 4788
  • Да будет свет!
Программа Gimagereader на GTK версии 3.2.3 от 2017 года включена в основной репозиторий Ubuntu 18.04 LTS. Но в связи с новостью о релизе системы оптического распознавания текста Tesseract 4.0, решила в осенней Matuntu-B64 посмотреть, как с обновлённым Tesseract-ом работает из репозитория ppa:sandromani/gimagereader справится новый Gimagereader-Qt, выпущенный 26 сентября нынешнего года.

Оказалось, что на Qt5 программа не способна распознавать текст.
Установила Gimagereader-GTK

С помощью Gimagereader-GTK нормально распознан и сохранён текст из отсканированного изображения. Через буфер обмена вставила его в китайский офис версии 10.1.0.6757 и привела к виду оригинального документа.
Делай с нами, делай как мы, делай лучше нас!

Оффлайн ivm

  • Ветеран
  • *****
  • Сообщений: 3072
  • Что бы ни случилось, всё будет хорошо!
Состоялся релиз системы оптического распознавания текста Tesseract 5.0, поддерживающей распознавание символов UTF-8 и текстов на более чем 100 языках, включая русский, казахский, белорусский и украинский. Результат может сохраняться как открытым текстом, так и в форматах HTML (hOCR), ALTO (XML), PDF и TSV. Изначально система была создана в 1985-1995 годах в лаборатории компании Hewlett Packard, в 2005 году код был открыт под лицензией Apache и в дальнейшем развивался при участии работников компании Google. Исходные тексты проекта распространяются под лицензией Apache 2.0.
Цитата: Опеннет
Tesseract включает в себя консольную утилиту и библиотеку libtesseract для встраивания функций распознавания текста в другие приложения. Из поддерживающих Tesseract сторонних GUI-интерфейсов можно отметить gImageReader, VietOCR и YAGF. Предлагается два движка распознавания: классический, распознающий текст на уровне шаблонов отдельных символов, и новый, базирующийся на применении системы машинного обучения на базе рекуррентной нейронной сети LSTM, оптимизированной для распознавания целиком строк и позволяющей добиться существенного увеличения точности. Готовые натренированные модели опубликованы для 123 языков. Для оптимизации производительности предлагаются модули, использующие OpenMP и SIMD-инструкций AVX2, AVX, NEON или SSE4.1.
Источник новости