Программа для распознавания текста.

cucullus	# 1 год, 4 месяца назад
Темы: 266 Сообщения: 3541 Участник с: 06 июня 2007	Да, наш взгляд на качество распознавания принципиально разный, согласен ;) Корректное распознование переносов считать ошибкой не готов. konstantinov-ms OCR-софт не должен ограничиваться внедрением текстового слоя в документ pdf. С этим уже даже pdf-reader'ы справляются. А это вообще делается сейчас? Я в этом вообще не копенгаген, всегда думал, что есть только файнридер (он где-то там под виндой ворованный). Просьбы внедрять текст пускал побоку, т.к. я под линуксом. А тут прям рабочее решение! такие дела.

# 1 год, 4 месяца назад

Сообщения: 3541

Участник с: 06 июня 2007

Да, наш взгляд на качество распознавания принципиально разный, согласен ;)
Корректное распознование переносов считать ошибкой не готов.

konstantinov-ms
OCR-софт не должен ограничиваться внедрением текстового слоя в документ pdf. С этим уже даже pdf-reader'ы справляются.

А это вообще делается сейчас?
Я в этом вообще не копенгаген, всегда думал, что есть только файнридер (он где-то там под виндой ворованный). Просьбы внедрять текст пускал побоку, т.к. я под линуксом. А тут прям рабочее решение!

такие дела.

konstantinov-ms	# 1 год, 4 месяца назад
Темы: 16 Сообщения: 708 Участник с: 29 ноября 2009	cucullus Корректное распознование переносов считать ошибкой не готов. Там же не только переносы. Там классическое (для "нулевых" годов): кавычка вместо единицы при сноске, кавычка-лапка вместо двойки, какая-то ахинея вместо тройки и т.д. Ну, и левые символы (@) посреди русскоязычного текста. И всё это только на двух страницах текста, который не то что картинок не имеет, он даже форматированием не грешит (в плане курсива или полужирного шрифта, не говоря уже о чём-то посложнее). Да и переносы удалять руками - то ещё удовольствие. Ну, а каждый абзац в своём фрейме - это вообще вынос мозга. Я даже не помню, есть ли в LibreOffice какое-то удобное решение, чтобы извлечь весь текст из фреймов, или придётся каждый абзац переставлять методом "copy/paste". cucullus А это вообще делается сейчас? В том-то и дело, что делается. Те, кто помоложе, вообще не парятся с FineReader. Они сразу распознают онлайн и получают результат. Вот, например, самый обычный Adobe Reader (но не в Linux'е). А вот эта штука вполне пристойно работает и на онтопике (хотя и через Wine): PDF-Exchange. Плотно этими функциями я не пользовался, но пару страниц в pdf во время эксперимента программа распознала вполне пристойно. Экспорт в документы MSOffice там платный, но встроить текст в .pdf вполне можно и бесплатно. Ну и, конечно же, огромный выбор онлайн-инструментов.

konstantinov-ms

# 1 год, 4 месяца назад

Темы: 16

Сообщения: 708

Участник с: 29 ноября 2009

cucullus
Корректное распознование переносов считать ошибкой не готов.

Там же не только переносы. Там классическое (для "нулевых" годов): кавычка вместо единицы при сноске, кавычка-лапка вместо двойки, какая-то ахинея вместо тройки и т.д. Ну, и левые символы (@) посреди русскоязычного текста. И всё это только на двух страницах текста, который не то что картинок не имеет, он даже форматированием не грешит (в плане курсива или полужирного шрифта, не говоря уже о чём-то посложнее). Да и переносы удалять руками - то ещё удовольствие. Ну, а каждый абзац в своём фрейме - это вообще вынос мозга. Я даже не помню, есть ли в LibreOffice какое-то удобное решение, чтобы извлечь весь текст из фреймов, или придётся каждый абзац переставлять методом "copy/paste".

cucullus
А это вообще делается сейчас?

В том-то и дело, что делается. Те, кто помоложе, вообще не парятся с FineReader. Они сразу распознают онлайн и получают результат. Вот, например, самый обычный Adobe Reader (но не в Linux'е). А вот эта штука вполне пристойно работает и на онтопике (хотя и через Wine): PDF-Exchange. Плотно этими функциями я не пользовался, но пару страниц в pdf во время эксперимента программа распознала вполне пристойно. Экспорт в документы MSOffice там платный, но встроить текст в .pdf вполне можно и бесплатно. Ну и, конечно же, огромный выбор онлайн-инструментов.