Программа для распознавания текста.

Да, наш взгляд на качество распознавания принципиально разный, согласен ;)
Корректное распознование переносов считать ошибкой не готов.

konstantinov-ms
OCR-софт не должен ограничиваться внедрением текстового слоя в документ pdf. С этим уже даже pdf-reader'ы справляются.
А это вообще делается сейчас?
Я в этом вообще не копенгаген, всегда думал, что есть только файнридер (он где-то там под виндой ворованный). Просьбы внедрять текст пускал побоку, т.к. я под линуксом. А тут прям рабочее решение!
такие дела.
cucullus
Корректное распознование переносов считать ошибкой не готов.
Там же не только переносы. Там классическое (для "нулевых" годов): кавычка вместо единицы при сноске, кавычка-лапка вместо двойки, какая-то ахинея вместо тройки и т.д. Ну, и левые символы (@) посреди русскоязычного текста. И всё это только на двух страницах текста, который не то что картинок не имеет, он даже форматированием не грешит (в плане курсива или полужирного шрифта, не говоря уже о чём-то посложнее). Да и переносы удалять руками - то ещё удовольствие. Ну, а каждый абзац в своём фрейме - это вообще вынос мозга. Я даже не помню, есть ли в LibreOffice какое-то удобное решение, чтобы извлечь весь текст из фреймов, или придётся каждый абзац переставлять методом "copy/paste".

cucullus
А это вообще делается сейчас?
В том-то и дело, что делается. Те, кто помоложе, вообще не парятся с FineReader. Они сразу распознают онлайн и получают результат. Вот, например, самый обычный Adobe Reader (но не в Linux'е). А вот эта штука вполне пристойно работает и на онтопике (хотя и через Wine): PDF-Exchange. Плотно этими функциями я не пользовался, но пару страниц в pdf во время эксперимента программа распознала вполне пристойно. Экспорт в документы MSOffice там платный, но встроить текст в .pdf вполне можно и бесплатно. Ну и, конечно же, огромный выбор онлайн-инструментов.
 
Зарегистрироваться или войдите чтобы оставить сообщение.