Форум проекта Matuntu

Программное обеспечение => Офис => Тема начата: ivm от 17 Августа 2015, 15:41:06

Название: Распознавание текста из сканированных изображений
Отправлено: ivm от 17 Августа 2015, 15:41:06
Долгое время меня упрекали, что в линуксе нет хорошей программы для распознания сканированного текста. В 14.04 (TT) наконец-таки появилась очень хорошая распознавалка Yagf  c языковым пакетом tesseract-ocr-rus. Устанавливается так sudo apt-get install yagf tesseract-ocr-rus Мне пришлось распознавать отсканированный газетный текст с ксерокопии качества ниже среднего, много черноты. Программа справилась замечательно. Особо отмечу очистку изображения перед распознанием. В принципе всё интуитивно понятно: выделил фрагмент текста, распознал и текстовый вариант отразился на второй половине окна. Поскольку мне пришлось работать со сканом газеты я открыл два экземпляра приложения на разных столах, поочерёдно распознавая то начало, то конец столбца.
В винде такое файнридер точно не позволит.
Название: Re: Распознавание текста из сканированных изображений
Отправлено: vita от 17 Августа 2015, 15:41:53
Мне понравилось пользоваться линуксовыми средствами Yagf Tesseract. Изрядно помогает при оцифровке/распознанию текста, особенно выполненного на компьютере. Правда, где на тексте размещена графика, приходится восстанавливать текст вручную, считывая его на графическом варианте, расположенном слева. В программе это делать вполне удобно. По поводу форматирования мне как раз лучше его отсутствие, легче потом его выполнить в офисном документе. Текстовые блоки выделяются нормально, можно распознавать по выделенному абзацу.
Одним словом, очень полезное приложение.
Название: Re: Распознавание текста из сканированных изображений
Отправлено: ivm от 17 Августа 2015, 15:42:35
Нашёл ещё одно применение YAGF. Как уже рассказывал, текст достался мне в виде некачественной ксерокопии статьи из газеты. Тёмно-серый фон... "Здесь читаем-здесь не читаем-здесь селёдку заворачивали..." (грустная шутка). Что текст распознала - это одно. Нужно было сохранить оригинал без распознания, но который будет нормально читаться. Для этого воспользовался функцией - подготовить к распознанию, после чего выполнил очищение всех блоков (снять выделение блоков для распознания) и из меню файл сохранил изображение под новым именем. Результат очень даже приличный!
Название: Re: Распознавание текста из сканированных изображений
Отправлено: vita от 17 Августа 2015, 15:43:46
Нашёл ещё одно применение YAGF.
Спасибо! Очень даже пригодилось для улучшения качества исходного документа. Просветление в прямом и переносном смысле  :)
Название: Re: Распознавание текста из сканированных изображений
Отправлено: В. Юрганов от 21 Сентября 2015, 07:06:59
тэкс ))
поставил FienReader8, который Игорь предоставлял. Даже им пользовался.
однако замечу, что так как в нем отсуствует кнопочка "Передать все страницы в Word" по причине отсуствия ворда, приходится передавать в в буфер и оттуда вставлять в офис.

В LibreOffive всегда вставлялся нормально, а вот в WPS - в виде каких то лаосских (как я понял) каракуль, и я не нашел где поменять.

Тут принесли методичку в PDF. Распозналась она нормально, чуток подправил, где были таблицы.
В WPS всё так же вставлось, каракулями.
А вот в либру отказалось вставляться. Файнридер пишет Создание текста в формате Unicode
потом перехожу в офис и жму CTRL-V и получаю в ответ от либры - Запрошенный формат буфера обмена недоступен.
никогда не сталкивался с проблемами буфера обмена, я в шоке.

Собственно и вопроса два
1) как вместо каракуль получить текст в WPS. Думаю элементарно, но туплю я.
2) как обмануть буфер обмена и связанные с ним проблемы

я обошел это, выбрал вставить неформатированный текст, но руководство очень недовольно, что надо его форматировать
Название: Re: Распознавание текста из сканированных изображений
Отправлено: vita от 21 Сентября 2015, 10:13:00
Не знаю, что с буфером обмена в Вашем случае, проверила копирование текста из сохранённой в PDF  вебстранички и вставила часть скопированного из буфера в WPS Writer и затем в LibreOffise Writer.
В обоих случаях текст вставился и читаем. Скорее всего, проблемы с самим FienReader8 или Wine.
Попробуйте выполнить те же действия в Windows и сохраните результаты в в формате .doc MSO 2003.
Название: Re: Распознавание текста из сканированных изображений
Отправлено: ivm от 21 Сентября 2015, 10:20:47
поставил FienReader8, который Игорь предоставлял.
Володя, извините, но я Вам ничего не предоставлял
Спойлер
просто помог найти в сети то, что Вы не могли найти. Но после этой фразы помогать и общаться с Вами не хочется.
Из-за таких как Вы в 37-м миллионы расстреляли.
Название: Re: Распознавание текста из сканированных изображений
Отправлено: BaaTLT от 23 Октября 2015, 11:21:57
Ответ службы поддержки ABBYY по поводу работы FineReader в Linux. Сами подталкивают к обходным вариантам.
Спойлер
Добрый день.
Мною куплена версия FineReader 12 Professional, но она не работает под Linux через Wine. Можно ли купить у Вас FineReader 8.0 Professional? Она очень хорошо работает в Linux через Wine. Это единственная программа, которая сдерживает полное удаление Windows с моего компьютера.

23.10.2015 7:40 Техническая поддержка

Добрый день, Алексей!

 

Благодарим Вас за интерес к программным продуктам компании ABBYY!

 

К сожалению, в соответствии с политикой нашей компании, как только в свет выходит новая версия продукта, все предыдущие снимаются с производства и реализации. Текущая версия ABBYY FineReader - ABBYY FineReader 12. В связи с этим, версия ABBYY FineReader 8.0 на данный момент не доступна для покупки.

 

Что касается установки ABBYY FineReader на устройство с ОС Linux, пожалуйста, обратите внимание на то, что программы для разных ОС разрабатываются и приобретаются отдельно. Поскольку ОС Linux не заявлена всистемных требованиях, мы не можем гарантировать корректную работу программы на устройстве с данной ОС.

 

К сожалению, на данный момент у нас нет готового продукта, аналогичного ABBYY FineReader 12, для устройств на базе Linux ОС.

 

Для решения Вашей задачи мы можем порекомендовать Вам онлайн-сервис ABBYY FineReader Online. Подробнее о возможностях сервиса Вы можете узнать здесь: http://finereaderonline.com/ru-ru/Help/Recognition.

 

При регистрации Вы получите возможность распознать и перевести 10 страниц текста. Бесплатный тариф также предполагает возможность распознавания и перевода до 5 страниц текста в месяц. Подробнее о тарифных планах Вы можете узнать здесь: https://finereaderonline.com/ru-ru/Store.

 

Если у Вас возникнут дополнительные вопросы, мы будем рады на них ответить!

 

С уважением,

Служба по работе с клиентами


Название: Re: Распознавание текста из сканированных изображений
Отправлено: vita от 19 Марта 2016, 08:33:15
gImageReader - программа для распознавания текста (GUI Tesseract). Система оптического распознавания символов (текста) Tesseract обычно используется для конвертации сканированных книг и документов в электронный вид, поддерживает распознавание множества языков (включая русский, с версии 3.0), имеется поддержка UTF-8 (кодировка реализующая представление Юникода).
Интерфейс программы gImageReader русский. Можно применять без подключённого сканера и распознавать текст из имеющегося снимка.
Устанавливается программа из репозитория: sudo add-apt-repository ppa:sandromani/gimagereader -y sudo apt-get update sudo apt-get install gimagereaderДополнительно устанавливаются необходимые для распознавания языковые пакеты Tesseract.

                       Возможности программы gImageReader:
Установка и работа программы gImageReader проверена в Matuntu-TW64-M112.
Название: Re: Распознавание текста из сканированных изображений
Отправлено: vita от 01 Ноября 2018, 12:25:53
Программа Gimagereader на GTK версии 3.2.3 от 2017 года включена в основной репозиторий Ubuntu 18.04 LTS. Но в связи с новостью о релизе (http://www.opennet.ru/opennews/art.shtml?num=49534) системы оптического распознавания текста Tesseract 4.0, решила в осенней Matuntu-B64 посмотреть, как с обновлённым Tesseract-ом работает из репозитория ppa:sandromani/gimagereader (https://launchpad.net/~sandromani/+archive/ubuntu/gimagereader) справится новый Gimagereader-Qt, выпущенный 26 сентября нынешнего года.
(https://i.imgur.com/wu2U5vC.png)
Оказалось, что на Qt5 программа не способна распознавать текст.
Установила Gimagereader-GTK
(https://i.imgur.com/hibtgZ4.png)
С помощью Gimagereader-GTK нормально распознан и сохранён текст из отсканированного изображения. Через буфер обмена вставила его в китайский офис версии 10.1.0.6757 и привела к виду оригинального документа.
Название: Re: Распознавание текста из сканированных изображений
Отправлено: ivm от 02 Декабря 2021, 02:00:07
Состоялся релиз системы оптического распознавания текста Tesseract 5.0 (https://tesseract-ocr.github.io/), поддерживающей распознавание символов UTF-8 и текстов на более чем 100 языках, включая русский, казахский, белорусский и украинский. Результат может сохраняться как открытым текстом, так и в форматах HTML (hOCR), ALTO (XML), PDF и TSV. Изначально система была создана в 1985-1995 годах в лаборатории компании Hewlett Packard, в 2005 году код был открыт под лицензией Apache и в дальнейшем развивался при участии работников компании Google. Исходные тексты проекта распространяются под лицензией Apache 2.0.
Цитата: Опеннет
Tesseract включает в себя консольную утилиту и библиотеку libtesseract для встраивания функций распознавания текста в другие приложения. Из поддерживающих Tesseract сторонних GUI-интерфейсов можно отметить gImageReader, VietOCR и YAGF. Предлагается два движка распознавания: классический, распознающий текст на уровне шаблонов отдельных символов, и новый, базирующийся на применении системы машинного обучения на базе рекуррентной нейронной сети LSTM, оптимизированной для распознавания целиком строк и позволяющей добиться существенного увеличения точности. Готовые натренированные модели опубликованы для 123 языков. Для оптимизации производительности предлагаются модули, использующие OpenMP и SIMD-инструкций AVX2, AVX, NEON или SSE4.1.
Источник новости (https://www.opennet.ru/opennews/art.shtml?num=56259)