посоветуйте хорошую "распознавалку" текста

mehanoid	# 12 лет, 4 месяца назад
Темы: 28 Сообщения: 382 Участник с: 27 апреля 2010	До сих пор никто не написал и не собирается, а они всё пилят этот SDK. Сделали бы что-нибудь уже нормальное, а то толку от их стараний

rec	# 12 лет, 4 месяца назад
Темы: 16 Сообщения: 86 Участник с: 24 июня 2010	Реквестирую и я вменяемую “распознавалку”. Есть стопка книг в pdf и djvu по программированию, хотел сделать боброе дело - сконвертить в fb2 и выложить. А конвертить пока не получается, даже в нормальный текст :(

sirocco	# 12 лет, 3 месяца назад
Темы: 29 Сообщения: 2506 Участник с: 25 июля 2007	habr (без чудес)

rec	# 12 лет, 3 месяца назад
Темы: 16 Сообщения: 86 Участник с: 24 июня 2010	sirocco habr (без чудес) Из обзора видно, что состояние дел c распонавалками в linux не ахти. Попробовал онлайновую newocr.com - терпимо, но неудобно распознавать многостраничные документы. Теми же движками можно и на локальном компе воспользоваться. Из нескольких выбрал tesseract - он достаточно неплохо распознал тестовую книжку :) Правда ещё остается куча работы для ручек :) Пробую сейчас под оффтопиком файнридер 11. Сравним-с :) upd. Файнридер справился с задачей. Особых сверхспособностей никто из конкурсантов не проявил, перечислю участвовавших: 1. newocr.com - неплохо, но неудобна работа с многостраничными документами 2. tesseract - тож неплохо, быстро, но качество распознавания смешанных языков оставляет желать лучшего 3. finereader 11 под оффтопик - сравнимо с tesseract + хорошо сохраняет структуру документа - жутко медленно :) Выбрал для себя tesseract.

rec

# 12 лет, 3 месяца назад

Темы: 16

Сообщения: 86

Участник с: 24 июня 2010

sirocco
habr (без чудес)

Из обзора видно, что состояние дел c распонавалками в linux не ахти.
Попробовал онлайновую newocr.com - терпимо, но неудобно распознавать многостраничные документы.
Теми же движками можно и на локальном компе воспользоваться. Из нескольких выбрал tesseract - он достаточно неплохо распознал тестовую книжку :) Правда ещё остается куча работы для ручек :)
Пробую сейчас под оффтопиком файнридер 11. Сравним-с :)

upd. Файнридер справился с задачей. Особых сверхспособностей никто из конкурсантов не проявил, перечислю участвовавших:
1. newocr.com - неплохо, но неудобна работа с многостраничными документами
2. tesseract - тож неплохо, быстро, но качество распознавания смешанных языков оставляет желать лучшего
3. finereader 11 под оффтопик - сравнимо с tesseract + хорошо сохраняет структуру документа - жутко медленно :)
Выбрал для себя tesseract.

nobus	# 12 лет, 3 месяца назад
Темы: 67 Сообщения: 1067 Участник с: 01 января 2010	Кто-нибудь собирал и использовал KBookOCR, о которой весьма неплохие отзывы? Говорила мама: "RTFM, сынок!"