aspiring |
|
Темы:
32
Сообщения:
152
Участник с: 12 октября 2011
|
Собственно решил написать эту статью из собственного ночного опыта, так как в первый раз у самого “из коробки” ничего не вышло. Итак, речь пойдет о пакете ocrfeeder, он представляет собой GUI для GTK+ системы OCR или системы распознавания текстов с растровых источников. sudo pacman -S ocrfeeder в качестве движка OCR используем пакет tesseract. Почему именно его, а не какой-нибудь распиаренный cuneiform, да потому что он просто лучше и качественней распознает текст. sudo pacman -S tesseract ну и конечно же языковые пакеты, для меня необходимы английский и русский: sudo pacman -S tesseract-data-eng tesseract-data-rus запускаем ocrfeeder идем в инструменты/движки OCR если движек установлен, а ничего нет, то жмакаем - Обнаружить выбираем tesseract и жмем Изменить а теперь важный момент, из-за которого многие забивают на данную систему, в строке Аргументы движка в самое начало добавляем: -l rus eng Добавляем картинку с текстом. Выделяем обрабатываемую область, лучше - вручную и определяем для нее тип, сверху в появившемся справа окне (текст или картинка). Выбираем движек, жмакаем - Распознать, ждем… радуемся результату. Надо отметить, что tesseract вежливо проигнорирует картинку, если она попадет в область выделения вместе с текстом. Документ можно экспортировать в ODT, расположение сохраняется, а вот с форматированием текста надо сказать - трабла. Но в принципе легко правиться Writerом. Отступая от основной темы, хотелось бы уделить внимание программам для сканирования. Для меня дэ-факто стала - simple-scan sudo pacman -S simple-scan можно конечно sane, но как-то она не прижилась у меня, и в дополнение функционала к первой, нашел программу пост-обработки сканированного изображения - scantailor sudo pacman -S scantailor Умеет она многое: выравнивать текст, определять актуальные размеры, очищать картинку от шумов, и т.д. Программа изначально предназначена для групповой обработки, но я до конца не разобрался и поэтому обрабатывал картинки по отдельности. Ну вот вроде и все, так сказать не FineReader но все же что-то. В принципе - результатом я доволен. |
sirocco |
|
Темы:
29
Сообщения:
2506
Участник с: 25 июля 2007
|
А не не была сделана попытка обучить tesseract, например как здесь http://zenway.ru/page/owlboxer ? |
aspiring |
|
Темы:
32
Сообщения:
152
Участник с: 12 октября 2011
|
А как бы нужды не было, попробуйте сами, распознавание на уровне и все есть в репах арча. За инфу спасибо! |
nobus |
|
Темы:
67
Сообщения:
1067
Участник с: 01 января 2010
|
Как-нибудь попробую и сравню с yagf. UPD: понравилась возможность импорта PDF, как в FineReader. Спасибо еще раз за наводку на юзабельную оболочку для OCR.
Говорила мама: "RTFM, сынок!"
|
mecenus |
|
Темы:
1
Сообщения:
6
Участник с: 21 ноября 2012
|
Не получилось заставить распознавать текст, выдает cat: /tmp/ocrfeeder_RUa4PV/tmp6waUjX.txt Нет такого файла или каталога |
alexdsp |
|
Темы:
22
Сообщения:
307
Участник с: 07 февраля 2008
|
Спасибо огромное за "simple-scan" :) Не знал об этой чудо программе! |
elsonador |
|
Темы:
63
Сообщения:
996
Участник с: 09 апреля 2010
|
Делаем скриншот. Распознаём:в зависимости от необходимого языиа раслознавания добавляем иартиниу с теистом Непригодно к эксплуатации. По-моему, проверять на реальных сканах смысла нет ни малейшего. |
gluk |
|
Темы:
13
Сообщения:
110
Участник с: 27 февраля 2012
|
Я давно (года 2-3 назад) ради интереса подсунул скриншот FineReader-у - он тоже плохо справился (по сравнению со сканами). |
firefoxic |
|
Темы:
7
Сообщения:
112
Участник с: 12 января 2013
|
Что ж вы хотите от скриншотов с dpi=96 (или сколько у вас там)? Нужно, если уж сканнера нет, хотя бы фотки документов совать с dpi=300 (хотя с фотками эти цифры спорны). Давно валялись фотки некоторых документов, а в онлайн-ocr лениво было лазить. Спасибо вам! Всё быстро оттекстил.
Я не красноглазик, я фаерфоксик ^_^
|
mihalych |
|
Темы:
2
Сообщения:
22
Участник с: 25 марта 2013
|
Мегаспасибо, уважаемый. Я бы среди сотни прог заблудился бы и забросил всё.
Червоноокий
|