посоветуйте хорошую "распознавалку" текста

До сих пор никто не написал и не собирается, а они всё пилят этот SDK. Сделали бы что-нибудь уже нормальное, а то толку от их стараний
Реквестирую и я вменяемую “распознавалку”.
Есть стопка книг в pdf и djvu по программированию, хотел сделать боброе дело - сконвертить в fb2 и выложить.
А конвертить пока не получается, даже в нормальный текст :(
habr (без чудес)
sirocco
habr (без чудес)
Из обзора видно, что состояние дел c распонавалками в linux не ахти.
Попробовал онлайновую newocr.com - терпимо, но неудобно распознавать многостраничные документы.
Теми же движками можно и на локальном компе воспользоваться. Из нескольких выбрал tesseract - он достаточно неплохо распознал тестовую книжку :) Правда ещё остается куча работы для ручек :)
Пробую сейчас под оффтопиком файнридер 11. Сравним-с :)

upd. Файнридер справился с задачей. Особых сверхспособностей никто из конкурсантов не проявил, перечислю участвовавших:
1. newocr.com - неплохо, но неудобна работа с многостраничными документами
2. tesseract - тож неплохо, быстро, но качество распознавания смешанных языков оставляет желать лучшего
3. finereader 11 под оффтопик - сравнимо с tesseract + хорошо сохраняет структуру документа - жутко медленно :)
Выбрал для себя tesseract.
Кто-нибудь собирал и использовал KBookOCR, о которой весьма неплохие отзывы?
Говорила мама: "RTFM, сынок!"
 
Зарегистрироваться или войдите чтобы оставить сообщение.