Программное обеспечение > Офис

Распознавание текста из сканированных изображений

(1/3) > >>

ivm:
Долгое время меня упрекали, что в линуксе нет хорошей программы для распознания сканированного текста. В 14.04 (TT) наконец-таки появилась очень хорошая распознавалка Yagf  c языковым пакетом tesseract-ocr-rus. Устанавливается так
--- Код: ---sudo apt-get install yagf tesseract-ocr-rus
--- Конец кода ---
Мне пришлось распознавать отсканированный газетный текст с ксерокопии качества ниже среднего, много черноты. Программа справилась замечательно. Особо отмечу очистку изображения перед распознанием. В принципе всё интуитивно понятно: выделил фрагмент текста, распознал и текстовый вариант отразился на второй половине окна. Поскольку мне пришлось работать со сканом газеты я открыл два экземпляра приложения на разных столах, поочерёдно распознавая то начало, то конец столбца.
В винде такое файнридер точно не позволит.

vita:
Мне понравилось пользоваться линуксовыми средствами Yagf Tesseract. Изрядно помогает при оцифровке/распознанию текста, особенно выполненного на компьютере. Правда, где на тексте размещена графика, приходится восстанавливать текст вручную, считывая его на графическом варианте, расположенном слева. В программе это делать вполне удобно. По поводу форматирования мне как раз лучше его отсутствие, легче потом его выполнить в офисном документе. Текстовые блоки выделяются нормально, можно распознавать по выделенному абзацу.
Одним словом, очень полезное приложение.

ivm:
Нашёл ещё одно применение YAGF. Как уже рассказывал, текст достался мне в виде некачественной ксерокопии статьи из газеты. Тёмно-серый фон... "Здесь читаем-здесь не читаем-здесь селёдку заворачивали..." (грустная шутка). Что текст распознала - это одно. Нужно было сохранить оригинал без распознания, но который будет нормально читаться. Для этого воспользовался функцией - подготовить к распознанию, после чего выполнил очищение всех блоков (снять выделение блоков для распознания) и из меню файл сохранил изображение под новым именем. Результат очень даже приличный!

vita:

--- Цитата: ivm от 17 Августа 2015, 15:42:35 ---Нашёл ещё одно применение YAGF.
--- Конец цитаты ---
Спасибо! Очень даже пригодилось для улучшения качества исходного документа. Просветление в прямом и переносном смысле  :)

В. Юрганов:
тэкс ))
поставил FienReader8, который Игорь предоставлял. Даже им пользовался.
однако замечу, что так как в нем отсуствует кнопочка "Передать все страницы в Word" по причине отсуствия ворда, приходится передавать в в буфер и оттуда вставлять в офис.

В LibreOffive всегда вставлялся нормально, а вот в WPS - в виде каких то лаосских (как я понял) каракуль, и я не нашел где поменять.

Тут принесли методичку в PDF. Распозналась она нормально, чуток подправил, где были таблицы.
В WPS всё так же вставлось, каракулями.
А вот в либру отказалось вставляться. Файнридер пишет Создание текста в формате Unicode
потом перехожу в офис и жму CTRL-V и получаю в ответ от либры - Запрошенный формат буфера обмена недоступен.
никогда не сталкивался с проблемами буфера обмена, я в шоке.

Собственно и вопроса два
1) как вместо каракуль получить текст в WPS. Думаю элементарно, но туплю я.
2) как обмануть буфер обмена и связанные с ним проблемы

я обошел это, выбрал вставить неформатированный текст, но руководство очень недовольно, что надо его форматировать

Навигация

[0] Главная страница сообщений

[#] Следующая страница

Перейти к полной версии