Распознаем текст или о системе OCR

Собственно решил написать эту статью из собственного ночного опыта, так как в первый раз у самого “из коробки” ничего не вышло.
Итак, речь пойдет о пакете ocrfeeder, он представляет собой GUI для GTK+ системы OCR или системы распознавания текстов с растровых источников.
sudo pacman -S ocrfeeder
в качестве движка OCR используем пакет tesseract. Почему именно его, а не какой-нибудь распиаренный cuneiform, да потому что он просто лучше и качественней распознает текст.
sudo pacman -S tesseract
ну и конечно же языковые пакеты, для меня необходимы английский и русский:
sudo pacman -S tesseract-data-eng tesseract-data-rus
запускаем ocrfeeder
идем в инструменты/движки OCR
если движек установлен, а ничего нет, то жмакаем - Обнаружить
выбираем tesseract и жмем Изменить
а теперь важный момент, из-за которого многие забивают на данную систему,
в строке Аргументы движка в самое начало добавляем:
-l rus
также доступно
eng
в зависимости от необходимого языка распознавания.
Добавляем картинку с текстом.
Выделяем обрабатываемую область, лучше - вручную и определяем для нее тип, сверху в появившемся справа окне (текст или картинка).
Выбираем движек, жмакаем - Распознать, ждем… радуемся результату.
Надо отметить, что tesseract вежливо проигнорирует картинку, если она попадет в область выделения вместе с текстом.
Документ можно экспортировать в ODT, расположение сохраняется, а вот с форматированием текста надо сказать - трабла. Но в принципе легко правиться Writerом.

Отступая от основной темы, хотелось бы уделить внимание программам для сканирования. Для меня дэ-факто стала - simple-scan
sudo pacman -S simple-scan
можно конечно sane, но как-то она не прижилась у меня, и в дополнение функционала к первой, нашел программу пост-обработки сканированного изображения - scantailor
sudo pacman -S scantailor
Умеет она многое: выравнивать текст, определять актуальные размеры, очищать картинку от шумов, и т.д.
Программа изначально предназначена для групповой обработки, но я до конца не разобрался и поэтому обрабатывал картинки по отдельности.

Ну вот вроде и все, так сказать не FineReader но все же что-то. В принципе - результатом я доволен.

А не не была сделана попытка обучить tesseract, например как здесь http://zenway.ru/page/owlboxer ?
А как бы нужды не было, попробуйте сами, распознавание на уровне и все есть в репах арча. За инфу спасибо!
Как-нибудь попробую и сравню с yagf.

UPD: понравилась возможность импорта PDF, как в FineReader. Спасибо еще раз за наводку на юзабельную оболочку для OCR.
Говорила мама: "RTFM, сынок!"
Не получилось заставить распознавать текст, выдает cat: /tmp/ocrfeeder_RUa4PV/tmp6waUjX.txt Нет такого файла или каталога
Спасибо огромное за "simple-scan" :)
Не знал об этой чудо программе!
Делаем скриншот. Распознаём:

в зависимости от необходимого языиа раслознавания добавляем иартиниу с теистом
выделяем обрабатываему›о областы лучше - вручную и олределяем для нее тил„ сверху в лоявившемся слрава оине (теист или иартиниа) выбираем движеи‚ жмаиаем - Раслознаты ждем радуемся результату
надо отметиты что (еззегац вежливо лроитнорирует картинку если она лоладет в область выделения вместе с теистом
доиумент можно зислортироватв в от‘ раслоложение сохраняется а вот с форматированием теиста надо сиазать - трабла но в принципе летио
лравиться Штатам

Непригодно к эксплуатации. По-моему, проверять на реальных сканах смысла нет ни малейшего.
Я давно (года 2-3 назад) ради интереса подсунул скриншот FineReader-у - он тоже плохо справился (по сравнению со сканами).
Что ж вы хотите от скриншотов с dpi=96 (или сколько у вас там)?
Нужно, если уж сканнера нет, хотя бы фотки документов совать с dpi=300 (хотя с фотками эти цифры спорны).

Давно валялись фотки некоторых документов, а в онлайн-ocr лениво было лазить.
Спасибо вам! Всё быстро оттекстил.
Я не красноглазик, я фаерфоксик ^_^
Мегаспасибо, уважаемый. Я бы среди сотни прог заблудился бы и забросил всё.
Червоноокий
 
Зарегистрироваться или войдите чтобы оставить сообщение.