Программа для распознавания текста.

deft666	# 1 год, 4 месяца назад
Темы: 54 Сообщения: 167 Участник с: 21 августа 2015	Добрый день всем. Подскажите, нужно срочно отсканировать и распознать отсканированный текст с переводом в pdf. Какую программу поставить для распознавания текста?

eim6wei9	# 1 год, 4 месяца назад
Темы: 12 Сообщения: 21 Участник с: 16 ноября 2022	gimagereader-gtk

deft666	# 1 год, 4 месяца назад
Темы: 54 Сообщения: 167 Участник с: 21 августа 2015	eim6wei9 gimagereader-gtk а как словари установить?

cucullus	# 1 год, 4 месяца назад
Темы: 266 Сообщения: 3541 Участник с: 06 июня 2007	ох нифига себе как всё продвинулось! работает даже! такие дела.

konstantinov-ms	# 1 год, 4 месяца назад
Темы: 16 Сообщения: 708 Участник с: 29 ноября 2009	cucullus работает даже! …или делает вид, что работает! На англоязычных текстах ещё куда ни шло. На русскоязычных текстах программа минут 10 распознавала ИЗНАЧАЛЬНО ЭЛЕКТРОННЫЙ PDF, а потом не смогла его сохранить. Если распознавать сканы (очень приличного качества), вылезают абсолютно дичайшие ошибки. Ну, и опять же, html программа сохраняет, а на pdf и odt падает. Проверено и на .gtk-, и на qt-версии. Разбираться в причинах было лень. Поскольку как показывает практика, даже если ты сейчас решишь эту проблему, позже вылезет какая-нибудь другая. Не везёт Linux'у с OCR. Пока только Wine. За это же время FineReader 12 в Wine корректно распознал всю книгу под 400 страниц, отправил в .docx-формат, и качество распознавания выше на порядок. С таким качеством распознавания tesseract как шёл лесом, так и продолжает идти. Потому что если нужно по-быренькому распознать один документ, то легко можно воспользоваться онлайн-распознавалками. Если же прибегать к ocr приходится хотя бы несколько раз в месяц, никакой альтернативы FineReader до сих пор нет. Потому что потом ручками разгребать все косяки tesseract получается себе дороже по времени. Двенадцатая версия FineReader прекрасно работает в Wine. Cuneiform давненько не тыкал палочкой, но навряд ли там что-то изменилось, учитывая, что движок замёрз ещё в "нулевых".

konstantinov-ms

# 1 год, 4 месяца назад

Темы: 16

Сообщения: 708

Участник с: 29 ноября 2009

cucullus
работает даже!

…или делает вид, что работает! На англоязычных текстах ещё куда ни шло. На русскоязычных текстах программа минут 10 распознавала ИЗНАЧАЛЬНО ЭЛЕКТРОННЫЙ PDF, а потом не смогла его сохранить. Если распознавать сканы (очень приличного качества), вылезают абсолютно дичайшие ошибки. Ну, и опять же, html программа сохраняет, а на pdf и odt падает. Проверено и на .gtk-, и на qt-версии. Разбираться в причинах было лень. Поскольку как показывает практика, даже если ты сейчас решишь эту проблему, позже вылезет какая-нибудь другая. Не везёт Linux'у с OCR. Пока только Wine.
За это же время FineReader 12 в Wine корректно распознал всю книгу под 400 страниц, отправил в .docx-формат, и качество распознавания выше на порядок. С таким качеством распознавания tesseract как шёл лесом, так и продолжает идти. Потому что если нужно по-быренькому распознать один документ, то легко можно воспользоваться онлайн-распознавалками. Если же прибегать к ocr приходится хотя бы несколько раз в месяц, никакой альтернативы FineReader до сих пор нет. Потому что потом ручками разгребать все косяки tesseract получается себе дороже по времени. Двенадцатая версия FineReader прекрасно работает в Wine.
Cuneiform давненько не тыкал палочкой, но навряд ли там что-то изменилось, учитывая, что движок замёрз ещё в "нулевых".

grayich	# 1 год, 4 месяца назад
Темы: 230 Сообщения: 2205 Участник с: 08 января 2009	яндекс\гугл переводчики, перевести документ

cucullus	# 1 год, 4 месяца назад (отредактировано 1 год, 4 месяца назад)
Темы: 266 Сообщения: 3541 Участник с: 06 июня 2007	konstantinov-ms, Вы уверены, что установили tesseract-data-rus? У меня идеально распознало. Печатный сканированный текст, даже с подписями и печатями. Страница секунды за 3-4. Проблемы потом при сохранении, почему-то слова склеиваются, хотя при распознавании всё отдельно. Думаю, это решаемо как-то. В pdf сохранила. такие дела.

cucullus

# 1 год, 4 месяца назад (отредактировано 1 год, 4 месяца назад)

Темы: 266

Сообщения: 3541

Участник с: 06 июня 2007

konstantinov-ms, Вы уверены, что установили tesseract-data-rus? У меня идеально распознало. Печатный сканированный текст, даже с подписями и печатями. Страница секунды за 3-4.
Проблемы потом при сохранении, почему-то слова склеиваются, хотя при распознавании всё отдельно. Думаю, это решаемо как-то.
В pdf сохранила.

такие дела.

konstantinov-ms	# 1 год, 4 месяца назад (отредактировано 1 год, 4 месяца назад)
Темы: 16 Сообщения: 708 Участник с: 29 ноября 2009	cucullus Вы уверены, что установили tesseract-data-rus? Конечно установил, без этого программа вообще не работала бы: `y -Qs tesseract community/gimagereader-gtk 3.4.0-4 Gtk front-end to tesseract-ocr community/gimagereader-qt 3.4.0-4 Qt front-end to tesseract-ocr community/tesseract 5.2.0-2 An OCR program community/tesseract-data-deu 2:4.1.0-3 (tesseract-data) Tesseract OCR data (deu) community/tesseract-data-eng 2:4.1.0-3 (tesseract-data) Tesseract OCR data (eng) community/tesseract-data-osd 2:4.1.0-3 Tesseract OCR data (osd) community/tesseract-data-rus 2:4.1.0-3 (tesseract-data) Tesseract OCR data (rus)` cucullus Страница секунды за 3-4 Не знаю. Возможно, дело в том, что я выбираю сразу три языка распознавания, а не один. Но в FineReader'e я выбирал и больше (включая греческий и латынь, которыми изобилуют научные тексты). и всё работает очень быстро. cucullus почему-то слова склеиваются Понял, в чём дело. Возможно, у нас с Вами разные представления о качестве распознавания. По моему мнению, как минимум с 2004-го (ну, ладно, с 2008-го) года если программа OCR выдаёт вот такой результат, то это ненормально: "Я сам нейробиолог И в свое время лично ощутил этот па-скалевский ужас. Ощущал я и связанное с НИМ смуще-ние. иногда мне приходится публич-но выступать, расскdзывая о положении дел в нашей сфере науки после одного ИЗ таких выступлений…" Вот реально: это уровень FineReader'а "нулевых" годов. Конечно, тогда мы как-то распознавали тексты, потом вычитывали их, правили ошибки и считали это всё нормальным. Но в 2022 году заниматься этим я не буду. Я поставлю себе FineReadere в Wine и получу приемлемый на 2022 год результат. cucullus В pdf сохранила У меня падала. Может быть, потому, что poppler обновился перед этим. Так бывает. Но в .odt тоже не сохраняла, падала. В принципе, я могу потратить время, разобраться, в чём проблема и решить её. И лет десять назад я бы так и поступил. Но сейчас мне жаль тратить время на это. Либо программа работает и удовлетворяет мои потребности, либо я её удаляю. UPD. Кстати, как вариант, проблема может быть ещё и в том, что при распознавании я выбираю не "Простой текст" (в котором убивается всё форматирование), а "hOCR, PDF". Тогда предварительный результат программа сохраняет не в .txt-формате, а в формате .html. А если пытаешься сохранить в .pdf/.odt, падает.

konstantinov-ms

# 1 год, 4 месяца назад (отредактировано 1 год, 4 месяца назад)

Темы: 16

Сообщения: 708

Участник с: 29 ноября 2009

cucullus
Вы уверены, что установили tesseract-data-rus?

Конечно установил, без этого программа вообще не работала бы:

y -Qs tesseract
community/gimagereader-gtk 3.4.0-4
    Gtk front-end to tesseract-ocr
community/gimagereader-qt 3.4.0-4
    Qt front-end to tesseract-ocr
community/tesseract 5.2.0-2
    An OCR program
community/tesseract-data-deu 2:4.1.0-3 (tesseract-data)
    Tesseract OCR data (deu)
community/tesseract-data-eng 2:4.1.0-3 (tesseract-data)
    Tesseract OCR data (eng)
community/tesseract-data-osd 2:4.1.0-3
    Tesseract OCR data (osd)
community/tesseract-data-rus 2:4.1.0-3 (tesseract-data)
    Tesseract OCR data (rus)

cucullus
Страница секунды за 3-4

Не знаю. Возможно, дело в том, что я выбираю сразу три языка распознавания, а не один. Но в FineReader'e я выбирал и больше (включая греческий и латынь, которыми изобилуют научные тексты). и всё работает очень быстро.

cucullus
почему-то слова склеиваются

Понял, в чём дело. Возможно, у нас с Вами разные представления о качестве распознавания. По моему мнению, как минимум с 2004-го (ну, ладно, с 2008-го) года если программа OCR выдаёт вот такой результат, то это ненормально: "Я сам нейробиолог И в свое время лично ощутил этот па-скалевский ужас. Ощущал я и связанное с НИМ смуще-ние. иногда мне приходится публич-но выступать, расскdзывая о положении дел в нашей сфере науки после одного ИЗ таких выступлений…"
Вот реально: это уровень FineReader'а "нулевых" годов. Конечно, тогда мы как-то распознавали тексты, потом вычитывали их, правили ошибки и считали это всё нормальным. Но в 2022 году заниматься этим я не буду. Я поставлю себе FineReadere в Wine и получу приемлемый на 2022 год результат.

cucullus
В pdf сохранила

У меня падала. Может быть, потому, что poppler обновился перед этим. Так бывает. Но в .odt тоже не сохраняла, падала. В принципе, я могу потратить время, разобраться, в чём проблема и решить её. И лет десять назад я бы так и поступил. Но сейчас мне жаль тратить время на это. Либо программа работает и удовлетворяет мои потребности, либо я её удаляю.

UPD. Кстати, как вариант, проблема может быть ещё и в том, что при распознавании я выбираю не "Простой текст" (в котором убивается всё форматирование), а "hOCR, PDF". Тогда предварительный результат программа сохраняет не в .txt-формате, а в формате .html. А если пытаешься сохранить в .pdf/.odt, падает.

cucullus	# 1 год, 4 месяца назад (отредактировано 1 год, 4 месяца назад)
Темы: 266 Сообщения: 3541 Участник с: 06 июня 2007	konstantinov-ms Возможно, у нас с Вами разные представления о качестве распознавания Ну не знаю... Единственно, текст без переносов, т.к. не книга, а документ. В режиме "hOCR, PDF", русский язык. Склеивает слова именно при экспорте. Распознавание идеальное, это меня и потрясло, я не ожидал, по старой памяти. Глючит оболочка. Для целей внедрения текстового слоя в скан вполне годно, только надо экспорт починить. P.S. Подключил английский, запустил двуязычное распознавание. Стало медленнее, страница секунд 20-25. Результат всё равно потрясает. Текст: список литературы, языки вперемешку, много знаков препенания, цифр. Ошибок почти нет! С русско-английскими словами через тире не справился, но это не удивительно. Из забавного: "and" посреди английского текста распознал как "апа" ;) P.P.S. А вот когда исходник криво сфоткан на телефон, тогда всё хуже, конечно. Если строка идёт по дуге, то как повезёт. такие дела.

cucullus

# 1 год, 4 месяца назад (отредактировано 1 год, 4 месяца назад)

Темы: 266

Сообщения: 3541

Участник с: 06 июня 2007

konstantinov-ms
Возможно, у нас с Вами разные представления о качестве распознавания

Ну не знаю... Единственно, текст без переносов, т.к. не книга, а документ. В режиме "hOCR, PDF", русский язык.
Склеивает слова именно при экспорте. Распознавание идеальное, это меня и потрясло, я не ожидал, по старой памяти.
Глючит оболочка.
Для целей внедрения текстового слоя в скан вполне годно, только надо экспорт починить.

P.S. Подключил английский, запустил двуязычное распознавание. Стало медленнее, страница секунд 20-25.
Результат всё равно потрясает. Текст: список литературы, языки вперемешку, много знаков препенания, цифр. Ошибок почти нет! С русско-английскими словами через тире не справился, но это не удивительно.
Из забавного: "and" посреди английского текста распознал как "апа" ;)

P.P.S. А вот когда исходник криво сфоткан на телефон, тогда всё хуже, конечно. Если строка идёт по дуге, то как повезёт.

такие дела.

konstantinov-ms	# 1 год, 4 месяца назад (отредактировано 1 год, 4 месяца назад)
Темы: 16 Сообщения: 708 Участник с: 29 ноября 2009	cucullus не книга, а документ Не знаю. Документ не пробовал. Взял первую же книгу из библиотеки под 400 страниц. Из них выбрал 40 страниц на распознавание. Распознаёт. Но при передаче в pdf/odt падает. Ну, хорошо, на досуге попробую что-нибудь 10-страничное распознать. Хотя не очень понимаю, зачем держать программу, которая корректно распознаёт только 10 страниц. cucullus Для целей внедрения текстового слоя в скан вполне годно Если бы не падало. Хотя и для этого держать программу не очень рационально. Онлайн-сервисов множество. Закинули на сервер, через 5 минут скачали результат. В 2022 г. OCR-софт не должен ограничиваться внедрением текстового слоя в документ pdf. С этим уже даже pdf-reader'ы справляются. Но тут, понятное дело, спорить не о чем, ибо вкусовщина: Вас устраивает, а меня нет. cucullus Стало медленнее, страница секунд 20-25 А теперь подключите третий язык :))) А ведь бывают работы, где и по 6 языков используется. cucullus Ошибок почти нет! cucullus "and" посреди английского текста распознал как "апа" cucullus исходник криво сфоткан на телефон, тогда всё хуже, конечно Собственно, об этом я и говорил выше: это уровень FineReader'а "нулевых" годов. Никто ж не спорит с тем, что по сравнению с самим собой tesseract продвинулся за последние годы. Просто конкуренты за это время настолько ушли вперёд, что рассматривать tesseract как альтернативу просто не имеет смысла. Лет 10 назад, когда FineReader толком не работал в Wine, иметь под рукой простенькую распознавалку для "по-быренькому получить текстовый слой" в Linux'е, чтобы не искать Windows, имело смысл. Сейчас я этого смысла не вижу. P.S. Таки не поленился и попробовал распознать что-то простенькое. Взял книгу со сплошным текстом (прошлые эксперименты были с картинками, схемами, сложным форматированием и т.д.). Книга историческая (Хейстинг М. Операция "Оверлорд". Как был открыт второй фронт), скан очень хорошего качества (500-страничный pdf "весит" более 25 Мб). Для распознавания на этот раз выбрал не 40 страниц, а только 20. И о, чудо! 20 страниц программа экскпортировала. Правда, накосячила с расширением (файл .odt оказался с расширением .pdf, но это мы и ручками подправить можем!). Смотрим на результаты: https://imagizer.imageshack.com/v2/xq90/923/v6nyDD.png Считаем количество ошибок на страницу (я их выделил красным). Разочаровываемся. Считаем количество ошибок на следующей странице: https://imagizer.imageshack.com/v2/xq90/924/pYUjA6.png Разочаровываемся ещё сильнее. На странице уже левые символы стали появляться "©". Хотя предлоги из заглавных букв на этом тексте отсутствуют. Видимо, скан слишком хороший. Был бы чуть похуже, было бы интереснее. Но окончательно всё сыпется, когда смотрим результат экспорта: https://imagizer.imageshack.com/v2/xq90/922/7DJKgN.png Всё. На этом можно ставить точку. Текст передаётся блоками! Это настолько мозговыносное дело при редактировании, что такой текст проще перенабрать руками, чем отсканировать, а потом что-то подправить. В FineReader это настраиваемая функция. Здесь либо получаешь вообще текст без форматирования, либо с какими-то остатками от убитого форматирования (что мешало, например, сохранить выравнивание по ширине?!), но нередактируемый. Переносить текст из блока в блок - то ещё развлечение! И это при распознавании по 20 страниц! По 40 уже не тянет! Экспорт в .pdf проверить не удалось. Вот такую ошибку выдала программа при экспорте: https://imagizer.imageshack.com/v2/xq90/924/Bk1DIT.png А вот зачем нужно подключать языки (из-за чего программа на каждую страницу тратит чуть ли не по минуте. Вот так было в книге: https://imagizer.imageshack.com/v2/xq90/924/rBGLbH.png Вот так распознала программа: https://imagizer.imageshack.com/v2/xq90/922/Tddze0.png Резюме: на этом уровне OCR-софт работал в "нулевых" годах. Тогда с этим ещё мирились. Сегодня не вижу смысла мучиться с программой, которая не соответствует минимальным требованиям.

konstantinov-ms

# 1 год, 4 месяца назад (отредактировано 1 год, 4 месяца назад)

Темы: 16

Сообщения: 708

Участник с: 29 ноября 2009

cucullus
не книга, а документ

Не знаю. Документ не пробовал. Взял первую же книгу из библиотеки под 400 страниц. Из них выбрал 40 страниц на распознавание. Распознаёт. Но при передаче в pdf/odt падает. Ну, хорошо, на досуге попробую что-нибудь 10-страничное распознать. Хотя не очень понимаю, зачем держать программу, которая корректно распознаёт только 10 страниц.

cucullus
Для целей внедрения текстового слоя в скан вполне годно

Если бы не падало. Хотя и для этого держать программу не очень рационально. Онлайн-сервисов множество. Закинули на сервер, через 5 минут скачали результат. В 2022 г. OCR-софт не должен ограничиваться внедрением текстового слоя в документ pdf. С этим уже даже pdf-reader'ы справляются. Но тут, понятное дело, спорить не о чем, ибо вкусовщина: Вас устраивает, а меня нет.

cucullus
Стало медленнее, страница секунд 20-25

А теперь подключите третий язык :))) А ведь бывают работы, где и по 6 языков используется.

cucullus
Ошибок почти нет!

cucullus
"and" посреди английского текста распознал как "апа"

cucullus
исходник криво сфоткан на телефон, тогда всё хуже, конечно

Собственно, об этом я и говорил выше: это уровень FineReader'а "нулевых" годов. Никто ж не спорит с тем, что по сравнению с самим собой tesseract продвинулся за последние годы. Просто конкуренты за это время настолько ушли вперёд, что рассматривать tesseract как альтернативу просто не имеет смысла. Лет 10 назад, когда FineReader толком не работал в Wine, иметь под рукой простенькую распознавалку для "по-быренькому получить текстовый слой" в Linux'е, чтобы не искать Windows, имело смысл. Сейчас я этого смысла не вижу.

P.S. Таки не поленился и попробовал распознать что-то простенькое. Взял книгу со сплошным текстом (прошлые эксперименты были с картинками, схемами, сложным форматированием и т.д.). Книга историческая (Хейстинг М. Операция "Оверлорд". Как был открыт второй фронт), скан очень хорошего качества (500-страничный pdf "весит" более 25 Мб). Для распознавания на этот раз выбрал не 40 страниц, а только 20. И о, чудо! 20 страниц программа экскпортировала. Правда, накосячила с расширением (файл .odt оказался с расширением .pdf, но это мы и ручками подправить можем!). Смотрим на результаты:

https://imagizer.imageshack.com/v2/xq90/923/v6nyDD.png

Считаем количество ошибок на страницу (я их выделил красным). Разочаровываемся. Считаем количество ошибок на следующей странице:

https://imagizer.imageshack.com/v2/xq90/924/pYUjA6.png

Разочаровываемся ещё сильнее. На странице уже левые символы стали появляться "©". Хотя предлоги из заглавных букв на этом тексте отсутствуют. Видимо, скан слишком хороший. Был бы чуть похуже, было бы интереснее. Но окончательно всё сыпется, когда смотрим результат экспорта:

https://imagizer.imageshack.com/v2/xq90/922/7DJKgN.png

Всё. На этом можно ставить точку. Текст передаётся блоками! Это настолько мозговыносное дело при редактировании, что такой текст проще перенабрать руками, чем отсканировать, а потом что-то подправить. В FineReader это настраиваемая функция. Здесь либо получаешь вообще текст без форматирования, либо с какими-то остатками от убитого форматирования (что мешало, например, сохранить выравнивание по ширине?!), но нередактируемый. Переносить текст из блока в блок - то ещё развлечение! И это при распознавании по 20 страниц! По 40 уже не тянет!
Экспорт в .pdf проверить не удалось. Вот такую ошибку выдала программа при экспорте:

https://imagizer.imageshack.com/v2/xq90/924/Bk1DIT.png

А вот зачем нужно подключать языки (из-за чего программа на каждую страницу тратит чуть ли не по минуте. Вот так было в книге:

https://imagizer.imageshack.com/v2/xq90/924/rBGLbH.png

Вот так распознала программа:

https://imagizer.imageshack.com/v2/xq90/922/Tddze0.png

Резюме: на этом уровне OCR-софт работал в "нулевых" годах. Тогда с этим ещё мирились. Сегодня не вижу смысла мучиться с программой, которая не соответствует минимальным требованиям.